MiX Knowledge

动态拓扑和异构传感器网络多智能体系统的分散输入和状态估计

分类： 系统与控制, 多代理系统, 机器人技术, 系统与控制, 信号处理

作者： Zida Wu, Ankur Mehta

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2410.00272v1

摘要： 分散系统中的一个关键挑战是存在未知输入时的状态估计，特别是在具有动态拓扑的异构传感器网络中。虽然已经引入了许多共识算法，但它们通常需要广泛的信息交换或多次通信迭代才能确保估计准确性。本文提出了一种有效的算法，可以实现与具有其他智能体完整信息的过滤器相当的无偏最优解决方案。这是通过使用信息过滤器分解和通过协方差交集进行输入融合来实现的。我们的方法只需要一次通信迭代来在代理之间交换单独的估计，而不是多轮信息交换，从而通过避免共享显式观察和系统方程来保护代理的隐私。此外，为了解决动态通信拓扑带来的挑战，我们提出了两种实用策略来处理间歇性观测和不完整状态估计引起的问题，从而提高估计过程的鲁棒性和准确性。在静态和动态环境中进行的实验和消融研究证明了我们的算法相对于其他基线的优越性。值得注意的是，它的性能与具有所有邻居全局视图的算法一样好，甚至更好。

生活模式人类移动模拟

分类： 多代理系统, 人机交互

作者： Hossein Amiri, Will Kohn, Shiyang Ruan, Joon-Seok Kim, Hamdi Kavak, Andrew Crooks, Dieter Pfoser, Carola Wenk, Andreas Zufle

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2410.00185v1

摘要： 我们演示生活模拟模式，以创建城市中人类流动的真实模拟。该模拟最近已用于生成大量轨迹和签到数据。我们的演示侧重于双重使用模拟：(1) 使用图形用户界面 (GUI)，以及 (2) 通过禁用 GUI 来运行无头模拟以加快数据生成速度。我们进一步演示了如何通过使用来自 OpenStreetMap 的公开数据来使用生命模式模拟来模拟地球上的任何区域。最后，我们还展示了模拟可扩展性的最新改进，允许在多年的模拟时间内模拟多达 100,000 个个体代理。在我们的演示过程中，以及离线使用 GitHub 上的指南时，参与者将学习：(1) 驱动生命模式模拟的人类行为理论，(2) 如何模拟生成大量合成且真实的轨迹数据， (3) 使用 OSM 数据对参与者选择的感兴趣区域运行模拟，(4) 了解模拟的可扩展性并了解生成数据的属性，以及 (5) 管理同时运行的数千个并行模拟实例。

从稳态到资源共享：生物和经济兼容的多目标多智能体人工智能安全基准

分类： 多代理系统, 人工智能

作者： Roland Pihlakas, Joel Pyykkö

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2410.00081v1

摘要： 开发安全的代理人工智能系统受益于符合人类价值观的自动化实证测试，这是目前很大程度上尚未开发的子领域。为了对这一主题做出贡献，目前的工作重点是介绍在现代强化学习文献的安全方面被忽视的生物学和经济驱动的主题，即稳态、平衡多个目标、有界目标、收益递减、可持续性和多主体资源分享。我们针对上述主题实施了八个主要基准环境，以说明当前人工智能安全主流讨论的潜在缺陷。

交互式推测规划：通过系统和用户界面的协同设计提高代理效率

分类： 多代理系统, 人工智能, 计算和语言, 人机交互, 机器学习

作者： Wenyue Hua, Mengting Wan, Shashank Vadrevu, Ryan Nadel, Yongfeng Zhang, Chi Wang

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2410.00079v1

摘要： 代理作为以用户为中心的工具，越来越多地用于人工任务委派，通过产生想法、与用户代理互动以及制定行动计划来协助处理广泛的请求。然而，基于大型语言模型（LLM）的智能体通常由于两个主要因素而面临严重的规划延迟：底层LLM由于其规模大和高需求而导致的效率限制，以及由于广泛的生成而导致智能体的结构复杂性。产生最终输出的中间思想。鉴于服务提供效率低下会损害自动化对用户的价值，本文提出了一种以人为中心的高效代理规划方法——交互式推测规划——旨在通过系统设计和人机交互来提高代理规划的效率。我们的方法提倡代理系统和用户界面的协同设计，强调代理系统能够流畅地管理用户交互和中断的重要性。通过将人为干扰集成为系统的基本组件，我们不仅使其更加以用户为中心，而且还通过利用人机交互交互来提供准确的中间步骤，从而加快整个流程。代码和数据将被发布。

打破鲁棒多智能体强化学习中多智能体的魔咒

分类： 机器学习, 计算机科学与博弈论, 多代理系统, 机器学习

作者： Laixi Shi, Jingchu Gai, Eric Mazumdar, Yuejie Chi, Adam Wierman

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20067v2

摘要： 标准多智能体强化学习 (MARL) 算法很容易受到模拟与真实差距的影响。为了解决这个问题，人们提出了分布式鲁棒马尔可夫博弈（RMG），通过在博弈动态在规定的不确定性集合内变化时优化最坏情况的性能来增强 MARL 的鲁棒性。从问题表述到样本高效算法的开发，解决 RMG 的问题仍未得到充分探索。一个臭名昭著但公开的挑战是 RMG 是否能够摆脱多机构的诅咒，其中样本复杂性随着代理的数量呈指数级增长。在这项工作中，我们提出了一个自然类别的 RMG，其中每个智能体的不确定性集都是由环境和其他智能体的策略以最佳响应方式形成的。我们首先通过证明博弈论解决方案（例如鲁棒纳什均衡和粗相关均衡（CCE））的存在来建立这些 RMG 的适定性。假设可以访问生成模型，然后我们引入一种样本有效算法来学习 CCE，其样本复杂度与所有相关参数呈多项式缩放。据我们所知，这是第一个打破 RMG 多机构诅咒的算法。

LaMMA-P：使用 LM 驱动的 PDDL 规划器进行泛化多智能体长期任务分配和规划

分类： 机器人技术, 人工智能, 计算机视觉和模式识别, 机器学习, 多代理系统

作者： Xiaopan Zhang, Hao Qin, Fuquan Wang, Yue Dong, Jiachen Li

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20560v1

摘要： 语言模型（LM）具有很强的理解自然语言的能力，使其能够有效地将人类指令转化为简单机器人任务的详细计划。尽管如此，处理长期任务仍然是一个重大挑战，特别是在协作异构机器人团队的子任务识别和分配方面。为了解决这个问题，我们提出了一种语言模型驱动的多智能体 PDDL 规划器（LaMMA-P），这是一种新颖的多智能体任务规划框架，可以在长期任务上实现最先进的性能。 LaMMA-P 集成了 LM 的推理能力和传统启发式搜索规划器的优势，以实现高成功率和效率，同时展示跨任务的强大泛化能力。此外，我们还创建了 MAT-THOR，这是一个综合基准，基于 AI2-THOR 环境，以两种不同复杂程度的家庭任务为特征。实验结果表明，与现有基于 LM 的多智能体规划器相比，LaMMA-P 的成功率提高了 105%，效率提高了 36%。这项工作的实验视频、代码和数据集以及每个模块中使用的详细提示可以在 https://lamma-p.github.io 上找到。

MARLadona——使用多智能体强化学习实现团队合作

分类： 多代理系统

作者： Zichong Li, Filip Bjelonic, Victor Klemm, Marco Hutter

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20326v1

摘要： 机器人足球的复杂性构成了一项尚未解决的研究挑战。当前的解决方案严重依赖工程启发式策略，缺乏稳健性和适应性。深度强化学习在各种复杂的机器人任务中获得了显着的吸引力，例如运动、操纵和竞技游戏（例如 AlphaZero、OpenAI Five），使其成为机器人足球问题的有前途的解决方案。本文介绍了MARladona。分散式多智能体强化学习（MARL）训练管道，能够产生具有复杂团队合作行为的智能体，弥补启发式方法的缺点。此外，我们创建了一个基于 Isaac Gym 的开源多智能体足球环境。利用我们的 MARL 框架和修改后的全局实体编码器作为我们的核心架构，我们的方法对 HELIOS 代理实现了 66.8% 的胜率，该代理采用了最先进的启发式策略。此外，我们对政策行为进行了深入分析，并使用批评者网络解释了代理人的意图。

我们能打破鲁棒多智能体强化学习中多智能体的魔咒吗？

分类： 机器学习, 计算机科学与博弈论, 多代理系统, 机器学习

作者： Laixi Shi, Jingchu Gai, Eric Mazumdar, Yuejie Chi, Adam Wierman

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20067v1

摘要： 标准多智能体强化学习 (MARL) 算法很容易受到模拟与真实差距的影响。为了解决这个问题，人们提出了分布式鲁棒马尔可夫博弈（RMG），通过在博弈动态在规定的不确定性集合内变化时优化最坏情况的性能来增强 MARL 的鲁棒性。从问题表述到样本高效算法的开发，解决 RMG 的问题仍未得到充分探索。一个臭名昭著但公开的挑战是 RMG 是否能够摆脱多代理的诅咒，其中样本复杂性随着代理的数量呈指数级增长。在这项工作中，我们提出了一个自然类别的 RMG，其中每个智能体的不确定性集都是由环境和其他智能体的策略以最佳响应方式形成的。我们首先通过证明博弈论解决方案（例如鲁棒纳什均衡和粗相关均衡（CCE））的存在来建立这些 RMG 的适定性。假设可以访问生成模型，然后我们引入一种样本有效算法来学习 CCE，其样本复杂度与所有相关参数呈多项式缩放。据我们所知，这是第一个打破 RMG 多机构诅咒的算法。

电动汽车世界中的燃油税减免：拥堵定价的机会之窗

分类： 多代理系统, 普通经济学, 经济学

作者： Thi Ngoc Nguyen, Felix Muesgens

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.20033v1

摘要： 向电动汽车的持续过渡将减少全球能源税收入，这对政府资金产生重大影响。与此同时，交通需求不断增加，这反过来又加剧了拥堵问题。结合这两个挑战，本文评估了拥堵收费作为可持续收入来源的有效性，以抵消 2030 年燃油税损失，同时提高交通部门的效率。使用多智能体交通模拟 (MATSim) 软件对德国大柏林地区基于拥堵的收费进行了模拟，该收费随道路和时间的变化而变化。通过模拟结果，量化了收费对政府收入、交通管理、环境、社会福利和分配效应的影响。我们发现，大都市区的拥堵费收入可以补偿乘用车燃油税的减少。此外，还观察到显着的福利盈余。收费还成功地激励交通用户调整其出行行为，从而将交通延误时间减少了 28%。作为交通部门脱碳关键指标的二氧化碳排放量减少了 5% 以上。对分配效应的分析表明，以中低收入居民和外围行政区为重点的再分配计划有助于政策获得更多公众的认可。

基于变分自动编码器的交互式动态影响图解决方案

分类： 多代理系统

作者： Yinghui Pan, Biyang Ma, Hanyi Zhang, Yifeng Zeng

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.19965v1

摘要： 解决人工智能中的多智能体决策问题，特别是那些涉及在部分可观察和随机环境中同时行动的协作或竞争智能体的决策问题，仍然是一个艰巨的挑战。虽然交互式动态影响图（I-DID）为此类问题提供了一个有前途的决策框架，但当主体代理遇到未在 I-DID 中明确建模的其他代理所表现出的未知行为时，它们会遇到限制。这可能会导致主体代理做出次优的响应。在本文中，我们提出了一种新颖的数据驱动方法，该方法利用编码器-解码器架构，特别是变分自动编码器，来增强 I-DID 解决方案。通过将基于困惑的树损失函数集成到变分自编码器的优化算法中，再加上 Zig-Zag One-Hot 编码和解码的优点，我们生成了 I-DID 内其他代理的潜在行为，这些行为更有可能遏制他们的真实行为，即使是在有限的互动中。这种新方法使主体代理能够更适当地响应未知行为，从而提高其决策质量。我们凭经验证明了所提出的方法在两个成熟问题领域的有效性，突出了其处理具有未知行为的多智能体决策问题的潜力。这项工作是首次使用基于神经网络的方法来处理智能体规划和学习问题中的 I-DID 挑战。

使用部分信息代理网络进行分类：使个人短视分类器成为明智的群体

分类： 机器学习, 多代理系统

作者： Tong Yao, Shreyas Sundaram

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.19947v1

摘要： 我们考虑使用异构和部分信息代理的（对等）网络进行分类的问题，每个代理接收由底层真实类生成的本地数据，并配备只能区分整个集合的子集的分类器类。我们提出了一种迭代算法，该算法使用局部分类器的后验概率，并根据其局部信号和来自其邻居的信念信息，递归地更新每个代理对所有可能类别的局部信念。然后，我们采用一种新颖的分布式最小规则来更新每个代理的全局信念，并使所有代理能够学习真实的类别。我们证明，在某些假设下，对真实类别的信念几乎肯定会渐进地收敛到一个。我们提供渐进收敛率，并通过图像数据模拟以及随机森林分类器和 MobileNet 实验来证明我们算法的性能。

在单人指导下实现多机器人协作

分类： 机器人技术, 人机交互, 机器学习, 多代理系统

作者： Zhengran Ji, Lingyu Zhang, Paul Sajda, Boyuan Chen

发布时间： 2024-09-30

链接： http://arxiv.org/abs/2409.19831v1

摘要： 学习协作行为对于多智能体系统至关重要。传统上，假设协作行为将会出现，多智能体强化学习通过联合奖励和集中观察隐式地解决了这个问题。其他研究建议从一组协作专家的演示中学习。相反，我们提出了一种有效且明确的方法，通过利用单个人的专业知识来学习多智能体系统中的协作行为。我们的见解是，人类可以自然地在团队中扮演各种角色。我们表明，通过允许人类操作员在控制代理之间动态切换短时间内并结合类似人类的队友心理理论模型，代理可以有效地学习协作。我们的实验表明，我们的方法只需 40 分钟的人工指导，即可将具有挑战性的协作捉迷藏任务的成功率提高高达 58%。我们通过进行多机器人实验进一步证明我们的发现可以转移到现实世界。

DiffCP：通过扩散模型的超低位协作感知

分类： 计算机视觉和模式识别, 机器学习, 多代理系统

作者： Ruiqing Mao, Haotian Wu, Yukuan Jia, Zhaojun Nan, Yuxuan Sun, Sheng Zhou, Deniz Gündüz, Zhisheng Niu

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19592v1

摘要： 协作感知（CP）正在成为解决独立智能固有局限性的一种有前途的解决方案。然而，当前的无线通信系统由于其巨大的带宽需求而无法支持特征级和原始级协作算法。在本文中，我们提出了 DiffCP，一种新颖的 CP 范式，它利用专门的扩散模型来有效地压缩协作者的感知信息。通过将几何和语义条件纳入生成模型，DiffCP 能够以超低的通信成本实现特征级协作，从而推进 CP 系统的实际实施。该范例可以无缝集成到现有的 CP 算法中，以增强广泛的下游任务。通过广泛的实验，我们研究了通信、计算和性能之间的权衡。数值结果表明，DiffCP 可以显着降低 14.5 倍的通信成本，同时保持与最先进算法相同的性能。

非凸零阶分布式优化的方差减少梯度估计器

分类： 优化与控制, 多代理系统, 系统与控制, 系统与控制

作者： Huaiyi Mu, Yujie Tang, Zhongkui Li

发布时间： 2024-09-29

链接： http://arxiv.org/abs/2409.19567v1

摘要： 本文研究了平滑非凸问题的分布式零阶优化。我们提出了一种新颖的方差减少梯度估计器，它在每次迭代中随机更新真实梯度的一个正交方向，同时利用历史快照进行方差校正。通过将该估计器与梯度跟踪机制集成，我们解决了当前零阶分布式优化算法中存在的每个零阶梯度估计的收敛速度和采样成本之间的权衡，该算法依赖于 2 点或 $2d$点梯度估计器。我们根据采样数 $m$ 和问题维度 $d$ 推导出平滑非凸函数 $\mathcal{O}(d^{\frac{5}{2}}/m)$ 的收敛速度。将我们的算法与现有方法进行比较的数值模拟证实了所提出的梯度估计器的有效性和效率。

使用多代理工作流的大型语言模型驱动的跨域编排

分类： 多代理系统

作者： Xiaonan Xu, Haoshuo Chen, Jesse E. Simsarian, Roland Ryf, Nicolas K. Fontaine, Mikael Mazur, Lauren Dallachiesa, David T. Neilson

发布时间： 2024-09-28

链接： http://arxiv.org/abs/2410.10831v1

摘要： 我们展示了一个应用程序，该应用程序利用多个代理，由大型语言模型和集成工具提供支持，以协作解决跨不同领域的复杂网络操作任务。这些任务包括实时拓扑检索、使用物理模型的网络优化以及机械臂促进的光纤交换。

多智能体博弈中模仿学习的学习策略表示

分类： 多代理系统, 人工智能, 机器学习

作者： Shiqi Lei, Kanghon Lee, Linjing Li, Jinkyoo Park

发布时间： 2024-09-28

链接： http://arxiv.org/abs/2409.19363v1

摘要： 多智能体游戏中模仿学习（IL）的离线数据集通常包含表现出不同策略的玩家轨迹，这需要采取措施来防止学习算法获得不良行为。学习这些轨迹的表示是描述每个演示者所采用策略的有效方法。然而，现有的学习策略通常需要玩家识别或依赖于强假设，这不适用于多智能体游戏。因此，在本文中，我们引入了模仿学习策略表示（STRIL）框架，该框架（1）有效地学习多智能体博弈中的策略表示，（2）根据这些表示估计提出的指标，以及（3）过滤掉使用指标的次优数据。 STRIL 是一种插件方法，可以集成到现有的 IL 算法中。我们展示了 STRIL 在竞争性多智能体场景中的有效性，包括两人 Pong、限注德州扑克和四子棋。我们的方法成功地获取了策略表示和指标，从而确定了主导轨迹并显着提高了这些环境中现有的 IL 性能。

使用黑盒预测器、共形决策策略和控制屏障函数的安全分散多智能体控制

分类： 系统与控制, 多代理系统, 机器人技术, 系统与控制

作者： Sacha Huriot, Hussein Sibai

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.18862v1

摘要： 我们解决了分散式多智能体机器人设置中安全控制的挑战，其中智能体使用不确定的黑盒模型来预测其他智能体的轨迹。我们使用最近提出的共形决策理论来根据观察到的预测误差来调整基于控制屏障函数的安全约束的限制性。我们使用这些约束来合成控制器，尽管存在预测误差，但仍能在安全目标和任务完成之间取得平衡。我们提供了基于预测轨迹的安全约束与基于地面真实轨迹的约束之间的差异的单调函数值随时间的平均值的上限。我们通过实验结果验证了我们的理论，这些实验结果显示了我们的控制器在斯坦福无人机数据集中的多智能体场景中导航机器人时的性能。

偶然代理的设施位置问题

分类： 计算机科学与博弈论, 多代理系统, 91A68 68W25

作者： Gennaro Auricchio, Jie Zhang

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.18817v1

摘要： 在本文中，我们介绍并研究随机代理的设施定位问题（FLPAA），其中设施容纳的代理数量大于报告其偏好的代理数量（即 n_r）。备用容量由从概率分布 μ 中采样的 n_u=n-n_r 个随机代理使用。 FLPAA 的目标是找到一个使事前社会成本最小化的位置，即从 \mu 中采样的 n_u 个智能体的预期成本加上报告其位置的智能体所产生的成本。我们研究 FLPAA 的机制设计方面，假设机制设计者 (MD) 缺乏分布 $\mu$ 的知识，但可以查询 \mu 的 k 个分位数。我们探索了对概率分布有更多了解和设计性能更好的机制之间的权衡，我们通过强逼近比（SAR）来描述这一点。机制的 SAR 衡量最坏情况输入 x 和最坏情况分布 μ 上的机制成本与最优解决方案成本之间的最高比率，提供不依赖于 μ 的效率度量。我们将我们的研究分为四种不同的信息设置：零信息情况，其中 MD 无法访问分位数；中位数信息情况，其中 MD 可以访问 \mu 的中位数； n_u-分位数信息情况，其中MD可以访问其选择的n_u分位数，以及k-分位数信息情况，其中MD可以访问其选择的k<n_u分位数。对于所有框架，我们提出了一种最优机制或实现了较小的恒定 SAR，并将其与 SAR 的下限配对。在大多数情况下，下限与上限匹配，因此没有真实的机制可以实现较低的 SAR。最后，我们扩展了 FLPAA，以包含我们必须找到两个设施的情况。

面向开放式学习代理的通用且可解释的世界模型

分类： 人工智能, 多代理系统, 神经元和认知

作者： Lancelot Da Costa

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.18676v1

摘要： 我们引入了一类通用的、组合的和可解释的生成世界模型，支持开放式学习代理。这是一类稀疏的贝叶斯网络，能够逼近各种随机过程，使代理能够以可解释和计算可扩展的方式学习世界模型。这种将贝叶斯结构学习和内在动机（基于模型）规划相结合的方法使代理能够积极开发和完善他们的世界模型，这可能会导致开放式学习和更稳健的自适应行为。

意图感知策略图：回答不透明代理中的内容、方式和原因

分类： 人工智能, 机器学习, 多代理系统, 机器人技术, 68T42 (Primary), 68T37, 68T05, 68Q87, 68T30, 68T40, 68M15, I.2; I.1; K.4; G.3

作者： Victor Gimenez-Abalos, Sergio Alvarez-Napagao, Adrian Tormos, Ulises Cortés, Javier Vázquez-Salceda

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.19038v1

摘要： 代理是一种特殊的基于人工智能的软件，因为它们在复杂的环境中交互，并且具有更大的突发行为潜力。解释此类突发行为是部署值得信赖的人工智能的关键，但许多代理实现的复杂性和不透明性日益增加，这使得这变得困难。在这项工作中，我们提出了一个概率图形模型以及用于设计此类模型的管道（通过该模型可以仔细考虑代理的行为）并计算代理在任何时刻的意图的稳健数值。我们提供衡量标准，评估所提供解释的可解释性和可靠性，并支持诸如“您现在想做什么？”之类的可解释性问题。（例如送汤）“你打算怎么做？” （例如返回一个考虑其技能和世界的计划），以及“你为什么要在这种状态下采取这个行动？” （例如解释这如何促进或阻碍其自身目标）。该模型可以通过对智能体的行为和世界状态进行部分观察来构建，并且我们提供了一个迭代工作流程，用于通过更好的设计和/或指出不合理的智能体行为来增加建议的测量。

物料搬运系统中动态调度的多智能体强化学习

分类： 机器学习, 人工智能, 多代理系统

作者： Xian Yeow Lee, Haiyan Wang, Daisuke Katsumata, Takaharu Matsui, Chetan Gupta

发布时间： 2024-09-27

链接： http://arxiv.org/abs/2409.18435v1

摘要： 本文提出了一种多智能体强化学习（MARL）方法来学习动态调度策略，这对于优化不同行业的物料搬运系统的吞吐量至关重要。为了对我们的方法进行基准测试，我们开发了一个物料搬运环境，该环境反映了实际系统的复杂性，例如不同地点的各种活动、物理限制和固有的不确定性。为了增强学习过程中的探索，我们提出了一种以现有动态调度启发式形式整合领域知识的方法。我们的实验结果表明，我们的方法在中值吞吐量方面比启发式方法高出 7.4%。此外，我们还分析了在训练具有不同功能的多个智能体时不同架构对 MARL 性能的影响。我们还证明，通过使用 MARL 代理的第一次迭代作为启发式方法来训练 MARL 代理的第二次迭代，可以进一步提高 MARL 代理的性能。这项工作展示了应用 MARL 学习有效的动态调度策略的潜力，这些策略可以部署在现实世界的系统中以改善业务成果。

解释解释

分类： 人工智能, 多代理系统, 机器人技术

作者： Sergei Nirenburg, Marjorie McShane, Kenneth W. Goodman, Sanjay Oruganti

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18052v1

摘要： 解释是人们对高风险人工智能系统充满信心的关键。然而，基于机器学习的系统——几乎涵盖了当前所有的人工智能——无法解释，因为它们通常是黑匣子。可解释的人工智能（XAI）运动通过重新定义“解释”来解决这个问题。以人为中心的可解释人工智能（HCXAI）运动识别了用户以解释为导向的需求，但由于其对机器学习的承诺而无法满足这些需求。为了获得在关键领域工作的真人所需的解释，我们必须重新思考如何处理人工智能。我们描述了一种开发认知代理的混合方法，该方法使用基于知识的基础设施，并在适用时通过机器学习获得的数据进行补充。这些代理将充当人类的助手，对人类机器人团队的决策和行动承担最终责任。我们使用演示系统的引擎盖下面板来说明此类代理的解释潜力，在该演示系统中，一组模拟机器人协作完成人类分配的搜索任务。

HARMONIC：人机团队的认知和控制协作

分类： 机器人技术, 人工智能, 多代理系统

作者： Sanjay Oruganti, Sergei Nirenburg, Marjorie McShane, Jesse English, Michael K. Roberts, Christian Arndt

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18047v1

摘要： 本文提出了一种多机器人规划和协作的新颖方法。我们展示了人类机器人团队中机器人的认知策略，其中结合了元认知、自然语言交流和可解释性。该系统采用 HARMONIC 架构，灵活地集成整个团队的认知和控制能力。我们通过模拟实验评估我们的方法，该实验涉及一组异构机器人（UGV 和无人机）和人类的联合搜索任务。我们详细介绍了系统对复杂的现实场景的处理、具有不同功能的机器人之间的有效动作协调以及自然的人机通信。这项工作表明，机器人推理计划、目标和态度以及为行动和决策提供解释的能力是现实人机协作的重要先决条件。

HARMONIC：解释性认知机器人的框架

分类： 机器人技术, 人工智能, 人机交互, 多代理系统

作者： Sanjay Oruganti, Sergei Nirenburg, Marjorie McShane, Jesse English, Michael K. Roberts, Christian Arndt

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18037v1

摘要： 我们提出了 HARMONIC，一个用于实现认知机器人的框架，它将通用机器人转变为能够进行复杂决策、自然沟通和人类水平解释的值得信赖的队友。该框架支持用于高级决策的战略（认知）层与用于低级控制和执行的战术（机器人）层之间的互操作性。我们描述了该框架的核心功能和我们的初始实现，其中 HARMONIC 部署在参与多机器人搜索和检索任务的模拟 UGV 和无人机上。

使用大型语言模型控制工业自动化系统

分类： 系统与控制, 人工智能, 人机交互, 多代理系统, 机器人技术, 系统与控制

作者： Yuchen Xia, Nasser Jazdi, Jize Zhang, Chaitanya Shah, Michael Weyrich

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.18009v1

摘要： 传统的工业自动化系统需要专门的专业知识来操作和复杂的重新编程以适应新的流程。大型语言模型提供的智能使其更加灵活且易于使用。然而，大语言模型在工业环境中的应用尚未得到充分探索。本文介绍了一个集成大语言模型以实现工业自动化系统端到端控制的框架。该框架的核心是针对工业任务设计的代理系统、结构化的提示方法以及为LLM推理提供实时数据的事件驱动的信息建模机制。该框架为大语言模型提供不同上下文语义级别的实时事件，使他们能够解释信息、生成生产计划并控制自动化系统上的操作。它还支持结构化数据集创建，以便对大语言模型的下游应用程序进行微调。我们的贡献包括正式的系统设计、概念验证实施以及生成用于 LLM 微调和测试的特定任务数据集的方法。这种方法使得自动化系统更具适应性，可以响应自发事件，同时允许通过自然语言更轻松地进行操作和配置，从而实现更直观的人机交互。我们在 GitHub 上提供演示视频和详细数据：https://github.com/YuchenXia/LLM4IAS

异构交通流中的模块化自动驾驶汽车：建模、仿真和应用

分类： 多代理系统, 新兴技术

作者： Lanhang Ye, Toshiyuki Yamamoto

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17945v1

摘要： 模块化自动驾驶汽车（MAV）代表了一个突破性的概念，它将模块化集成到自动驾驶汽车的持续开发中。这种创新设计为交通流引入了独特的功能，允许多个模块无缝连接在一起并集体运行。为了了解这些车辆及其集体运行的交通流特征，本研究建立了一个专门设计的建模框架来模拟它们在交通流中的行为。对包含各种模块尺寸的任意形成的列车的混合交通流进行建模和研究。在不同水平的交通需求和渗透率下进行模拟，以检查这些车辆及其运行情况下的交通流动态。分析了混合交通流的微观轨迹、MAV列车组成和宏观基本图。模拟结果表明，集成微型飞行器及其集体运行可以显着提高运力，提高的程度取决于混合交通流的渗透率。值得注意的是，当渗透率超过 75% 时，容量几乎翻倍。此外，它们的存在显着影响和调节混合交通的自由流动速度。特别是，当 MAV 和背景交通之间存在运行速度限制变化时，混合交通会根据这些车辆的运行速度进行调整。这项研究提供了对结合新兴 MAV 技术的未来潜在交通流系统的见解。

支持多无人机的 MEC 网络：通过智能 3D 轨迹规划和资源分配优化延迟

分类： 多代理系统

作者： Zhiying Wang, Tianxi Wei, Gang Sun, Xinyue Liu, Hongfang Yu, Dusit Niyato

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17882v1

摘要： 移动边缘计算（MEC）通过缩短终端设备与计算节点之间的距离来减轻终端设备的计算负担。将无人机与增强型MEC网络相结合，可以利用无人机的高机动性灵活调整网络拓扑，进一步扩展MEC的适用性。然而，在高度动态和复杂的现实环境中，平衡任务卸载有效性和算法性能至关重要。本文研究了一种配备边缘计算节点的多无人机通信网络，以协助终端用户进行任务计算。我们的目标是通过离散计算模式、连续3D轨迹和资源分配的联合优化来减少用户的任务处理延迟。为了解决混合动作空间带来的挑战，我们提出了一种多无人机边缘计算资源调度（MUECRS）算法，该算法包括两个关键部分：1）轨迹优化，2）计算模式和资源管理。实验结果表明，我们的方法有效地设计了无人机的3D飞行轨迹，实现了快速的终端覆盖。此外，该算法实现了高效的资源部署和调度，比对比算法至少提高了16.7%，表现出优异的适应性和鲁棒性。

AssistantX：人类协作环境中由大语言模型支持的主动助理

分类： 机器人技术, 人工智能, 多代理系统

作者： Nan Sun, Bo Mao, Yongchang Li, Lumeng Ma, Di Guo, Huaping Liu

发布时间： 2024-09-26

链接： http://arxiv.org/abs/2409.17655v1

摘要： 人类居住环境中对智能助手的需求不断增长，推动了自主机器人系统的重大研究。然而，传统的服务机器人和虚拟助手由于动态推理和交互的能力有限，尤其是在需要人类协作时，在执行现实世界的任务时遇到了困难。大型语言模型的最新发展为改进这些系统开辟了新途径，实现更复杂的推理和自然交互功能。在本文中，我们介绍了 AssistantX，这是一种由大语言模型支持的主动助理，旨在在物理办公环境中自主操作。与传统服务机器人不同，AssistantX 利用新颖的多代理架构 PPDR4X，提供先进的推理能力和全面的协作意识。通过有效地弥合虚拟操作和物理交互之间的差距，AssistantX 在管理复杂的现实场景方面展示了强大的性能。我们的评估强调了该架构的有效性，表明 AssistantX 可以响应明确的指令，主动从内存中检索补充信息，并主动寻求团队成员的协作以确保成功完成任务。更多详细信息和视频可以在 https://assistantx-agent.github.io/AssistantX/ 找到。

分散式非线性模型预测控制，用于在检测范围有限的四旋翼飞行器团队中安全避免碰撞

分类： 机器人技术, 多代理系统

作者： Manohari Goarin, Guanrui Li, Alessandro Saviolo, Giuseppe Loianno

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17379v1

摘要： 多四旋翼系统在分散控制方面面临着重大挑战，特别是在传感和通信限制下的安全性和协调性方面。最先进的方法利用控制屏障功能（CBF）来提供安全保证，但常常忽略驱动约束和有限的检测范围。为了解决这些差距，我们提出了一种新颖的分散式非线性模型预测控制（NMPC），它集成了指数CBF（ECBF）以增强多四旋翼系统的安全性和最优性。我们提供了保守且实用的最小范围界限，以保持 ECBF 的安全保证。我们通过使用多达 10 个四旋翼飞行器和 20 个障碍物进行的广泛模拟以及使用 3 个四旋翼飞行器进行的实际实验来验证我们的方法。结果证明了所提出的框架在现实环境中的有效性，突显了其可靠的四旋翼团队操作的潜力。

用于临时团队合作的基于语言的多代理通信

分类： 多代理系统

作者： Huao Li, Hossein Nourkhiz Mahjoub, Behdad Chalaki, Vaishnav Tadiparthi, Kwonjoon Lee, Ehsan Moradi-Pari, Charles Michael Lewis, Katia P Sycara

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17348v1

摘要： 多智能体强化学习 (MARL) 方法已显示出使智能体能够从头开始学习共享通信协议并完成具有挑战性的团队任务的前景。然而，所学到的语言通常无法被人类或其他未共同训练的智能体解释，从而限制了其在临时团队合作场景中的适用性。在这项工作中，我们提出了一种新颖的计算管道，通过将代理通信基于交互式团队合作场景中的大型语言模型（LLM）生成的合成数据，将 MARL 代理之间的通信空间与人类自然语言的嵌入空间对齐。我们的结果表明，引入语言基础不仅可以维持任务绩效，还可以加速交流的出现。此外，学习到的通信协议在具有看不见的队友和新颖的任务状态的临时团队合作场景中表现出零样本泛化能力。这项工作为在现实世界的团队合作环境中实现人工智能和人类之间的有效沟通和协作迈出了重要一步。

将团队合作作为一次性游戏的有根据的预测：一种多智能体多臂强盗方法

分类： 多代理系统, 计算机科学与博弈论

作者： Alejandra López de Aberasturi Gómez, Carles Sierra, Jordi Sabater-Mir

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17214v1

摘要： 人类拥有与生俱来的协作能力。然而，有效的团队合作通常仍然具有挑战性。这项研究深入探讨了理性、自利的代理人团队内部协作的可行性，这些代理人参与团队合作，但没有义务做出贡献。借鉴心理学和博弈理论框架，我们将团队合作形式化为一次性聚合游戏，整合了斯坦纳团队生产力理论的见解。我们描述了这种新颖博弈的纳什均衡，并提出了一种多智能体多臂老虎机系统，该系统能够学习收敛到这种均衡的近似值。我们的研究为博弈论和多主体系统领域贡献了价值，为更好地理解自愿协作动态铺平了道路。我们研究团队异质性、任务类型和评估难度如何影响代理的策略和由此产生的团队合作结果。最后，我们实证研究了在无法进行分析处理的激励制度下工作团队的行为。我们的代理表现出类人的行为模式，证实了社会心理学研究的发现。

复数：通过模拟社交团体指导大语言模型的系统

分类： 计算和语言, 人工智能, 计算机与社会, 人机交互, 多代理系统

作者： Joshua Ashkinaze, Emily Fry, Narendra Edara, Eric Gilbert, Ceren Budak

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.17213v1

摘要： 最近的争论引起了人们的担忧，即语言模型可能支持某些观点。但是，如果解决方案不是以“无处可去的观点”为目标，而是利用不同的观点呢？我们引入了 Plurals，一个用于多元人工智能审议的系统和 Python 库。 Pplurals 由代理人（大语言模型，可选角色）组成，他们在可定制的结构中进行审议，并由主持人监督审议。复数是模拟社会整体的生成器。 Plurals 与政府数据集集成，创建具有全国代表性的人物角色，包括受民主审议理论启发的审议模板，并允许用户在结构中自定义信息共享结构和审议行为。六个案例研究证明了理论结构和功效的忠实度。三项随机实验表明，模拟焦点小组产生的输出与相关受众的在线样本产生共鸣（在 75% 的试验中选择零样本生成）。复数既是多元人工智能的范式，也是具体的体系。 Plurals 库可在 https://github.com/josh-ashkinaze/plurals 上获取，并将不断更新。

用于无线电资源管理的离线和分布式强化学习

分类： 机器学习, 人工智能, 多代理系统

作者： Eslam Eldeeb, Hirley Alves

发布时间： 2024-09-25

链接： http://arxiv.org/abs/2409.16764v1

摘要： 强化学习（RL）已被证明在未来智能无线网络中具有广阔的前景。无线资源管理（RRM）采用在线强化学习，取代了传统方案。然而，由于它依赖于与环境的在线交互，因此在在线交互不可行的实际问题中，它的作用变得有限。此外，传统的强化学习在现实随机环境中的不确定性和风险面前表现不佳。通过这种方式，我们针对 RRM 问题提出了一种离线分布式强化学习方案，能够使用静态数据集进行离线训练，而无需与环境进行任何交互，并使用回报的分布来考虑不确定性的来源。仿真结果表明，所提出的方案优于传统的资源管理模型。此外，它是唯一超越在线 RL 的方案，并且比在线 RL 获得了 $16 %$ 的收益。

将稳定且流行的匹配算法从二分实例扩展到任意实例

分类： 数据结构和算法, 离散数学, 计算机科学与博弈论, 多代理系统

作者： Gergely Csáji

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.16173v2

摘要： 我们考虑任意图中稳定且流行的匹配问题，这些问题被称为稳定室友实例。我们将最大尺寸弱稳定匹配问题的 3/2 近似算法扩展到室友情况，这解决了 Irving 和 Manlove 20 多年的开放问题，即有关系的室友实例中最大尺寸弱稳定匹配的近似性[Irving and Manlove 2002] 对于在有夫妇在场的情况下将居民与医院匹配的问题有很好的应用。我们还扩展了在严格偏好的情况下在二分图中找到最大尺寸流行匹配的算法以及在最大权重匹配中找到流行匹配的算法。虽然之前尝试扩展代理或将边从二分实例复制到任意实例的想法失败了，但这些结果表明，借助简单的观察，我们确实可以弥合差距并扩展这些算法

引入各向异性场以增强人群模拟的多样性

分类： 多代理系统

作者： Yihao Li, Junyu Liu, Xiaoyu Guan, Hanming Hou, Tianyu Huang

发布时间： 2024-09-24

链接： http://arxiv.org/abs/2409.15831v1

摘要： 大量人群表现出复杂的行为和显着的突发特性，但现有的人群模拟系统往往缺乏行为多样性，导致模拟结果同质。为了解决这个限制，我们建议将各向异性场（AF）作为描述人群运动不确定性的基本结构。通过利用 AF，我们的方法可以快速生成具有复杂行为模式的人群模拟，更好地反映真实人群固有的复杂性。 AF 可以通过直观的草图生成，也可以从真实的人群视频中提取，从而实现灵活高效的人群模拟系统。我们通过几个代表性场景证明了我们方法的有效性，与经典方法相比，展示了行为多样性的显着改进。我们的研究结果表明，通过合并 AF，人群模拟系统可以实现与现实世界人群系统更高的相似度。我们的代码可在 https://github.com/tomblack2014/AF\_Generation 上公开获取。

SPformer：一种基于 Transformer 的联网自动驾驶车辆 DRL 决策方法

分类： 人工智能, 多代理系统, 系统与控制, 系统与控制

作者： Ye Han, Lijun Zhang, Dejian Meng, Xingyu Hu, Yixia Lu

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15105v1

摘要： 在混合自动驾驶交通环境中，自动驾驶汽车做出的每一个决策都可能对交通系统产生很大的影响。由于车辆之间复杂的相互作用，做出既能确保现在及将来的高交通效率和安全的决策也具有挑战性。联网自动车辆（CAV）因其更强的感知和通信能力，在这种持续、高度动态和交互的环境中具有提高决策质量的巨大潜力。对于基于深度强化学习（DRL）的多车辆协同决策算法，我们需要表示车辆之间的交互以获得交互特征。这方面的表征直接影响学习效率和学习策略的质量。为此，我们提出了一种基于 Transformer 和强化学习算法的 CAV 决策架构。使用可学习的策略令牌作为多车辆联合策略的学习媒介，可以自适应地注意到感兴趣区域中所有车辆的状态，以提取代理之间的交互特征。我们还设计了直观的物理位置编码，其冗余位置信息优化了网络的性能。仿真结果表明，我们的模型能够充分利用交通场景中车辆的所有状态信息，从而获得满足效率和安全目标的高质量驾驶决策。比较表明，我们的方法显着改进了现有的基于 DRL 的多车辆协同决策算法。

有限超支等额分配法

分类： 计算机科学与博弈论, 人工智能, 多代理系统

作者： Georgios Papasotiropoulos, Seyedeh Zeinab Pishbin, Oskar Skibski, Piotr Skowron, Tomasz Wąs

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.15005v1

摘要： 在参与式预算（PB）中，选民通过投票决定在给定预算内资助哪些项目子集。 PB 背景下的比例对于确保所有选民群体的平等待遇至关重要。然而，纯粹的比例规则有时会导致次优结果。我们引入了有限超支的均等份额法（BOS 均等份额），这是平衡比例和效率的均等份额的强大变体。 BOS 均等份额解决了严格比例保证中固有的低效率问题，但仍然提供了与原始均等份额方法类似的良好比例。在分析过程中，我们还讨论了该方法的部分变体，该变体允许为项目提供部分资金。

多个移动机械手协作物体运输的运动动力学运动规划

分类： 机器人技术, 多代理系统, 优化与控制

作者： Keshab Patra, Arpita Sinha, Anirban Guha

发布时间： 2024-09-23

链接： http://arxiv.org/abs/2409.14910v1

摘要： 这项工作提出了一种运动动力学运动规划技术，用于动态环境中多个移动机械手的协作对象运输。全局路径规划器计算从起点到目标的线性分段路径。一种新颖的算法可以检测静态障碍物之间的狭窄区域，并帮助定义无障碍区域，以增强全局路径的可行性。然后，我们制定了一种用于轨迹生成的本地在线运动规划技术，以最小化地平线后退方式的控制工作。它规划有限时间范围内的轨迹，考虑运动动力学约束以及静态和动态障碍。该规划技术对移动基座和机械臂进行联合规划，有效利用移动基座的运动能力和机械臂的操纵能力。我们使用凸锥方法通过修改移动机械手的允许状态来避免地层的自碰撞，而不施加额外的约束。数值模拟和硬件实验展示了所提出方法的效率。

用于识别多智能体协调感知的分布式鲁棒逆强化学习

分类： 机器学习, 多代理系统, 信号处理

作者： Luke Snow, Vikram Krishnamurthy

发布时间： 2024-09-22

链接： http://arxiv.org/abs/2409.14542v1

摘要： 我们推导了一种极小极大分布鲁棒逆强化学习（IRL）算法来重建多智能体传感系统的效用函数。具体来说，我们构建了效用估计器，以最小化以噪声信号观测为中心的 Wasserstein 模糊集的最坏情况预测误差。我们证明了这种鲁棒估计和半无限优化重构之间的等价性，并且我们提出了一种一致的算法来计算解决方案。我们在数值研究中说明了这种强大的 IRL 方案的功效，可以根据观察到的跟踪信号重建认知雷达网络的效用函数。

更聪明地工作，而不是更辛苦：CS-PIBT 的简单模仿学习优于 MAPF 的大规模模仿学习

分类： 多代理系统, 机器人技术

作者： Rishi Veerapaneni, Arthur Jakobsson, Kevin Ren, Samuel Kim, Jiaoyang Li, Maxim Likhachev

发布时间： 2024-09-22

链接： http://arxiv.org/abs/2409.14491v1

摘要： 多智能体路径查找（MAPF）是为共享工作空间中的一组智能体有效地寻找有效的无碰撞路径的问题。 MAPF 社区主要致力于开发高性能启发式搜索方法。最近，一些工作应用了各种机器学习（ML）技术来解决 MAPF，通常涉及复杂的架构、强化学习技术和设置，但没有使用大量高质量的监督数据。我们这项工作的最初目标是展示高质量启发式搜索方法的简单大规模模仿学习如何能够带来最先进的 ML MAPF 性能。然而，我们发现，至少在我们的模型架构中，简单的大规模（每个示例有数百个代理的 70 万个示例）模仿学习确实 \textit{not} 产生令人印象深刻的结果。相反，我们发现，通过使用对 MAPF 模型预测进行后处理来解决 1 步冲突 (CS-PIBT) 的先前工作，我们可以在几分钟内训练一个简单的 ML MAPF 模型，其性能显着优于现有的 ML MAPF 策略。这对目前难以扩展的所有未来 ML MAPF 政策（具有本地通信）产生了严重影响。特别是，这一发现意味着未来的学习策略应该（1）始终使用智能单步碰撞屏蔽（例如 CS-PIBT），（2）始终包含以贪婪动作作为基线的碰撞屏蔽（例如 PIBT）和（3 ）促使未来的模型关注更长的视野/更复杂的规划，因为可以有效地解决一步碰撞。

使用支持物联网的移动设备的聚合器的新颖负载分配策略

分类： 多代理系统, 系统与控制, 系统与控制, 优化与控制

作者： Nitin Shivaraman, Jakob Fittler, Saravanan Ramanathan, Arvind Easwaran, Sebastian Steinhorst

发布时间： 2024-09-22

链接： http://arxiv.org/abs/2409.14293v1

摘要： 物联网 (IoT) 以及电动汽车 (EV) 等移动设备的快速普及导致电网负载不可预测。尤其是少数电网聚合商（充电站）由于地理位置、高峰时段等原因导致需求过剩，供需比尤为严重。现有的按需响应解决方案仅基于时移负荷，不考虑负荷的变化，无法实现显着改善。设备属性，例如充电模式和移动功能，以实现地理迁移。此外，有关一些聚合器的备用容量的信息可以帮助重新引导来自面临过剩需求的其他聚合器的负载，以允许设备迁移。在本文中，我们将设备的这些灵活属性建模为混合整数非线性问题（MINLP），以最大限度地减少过量负载并提高所有设备的效用（效益）。我们提出了一种在线分布式低复杂度启发式算法，可根据需求和截止日期对设备进行优先级排序，以最大程度地减少效用的累积损失。所提出的启发式方法在一组详尽的合成数据上进行了测试，并与相同运行时间的求解器/优化工具的解决方案进行了比较，以显示使用求解器的不切实际。还使用我们提出的解决方案和其他调度解决方案对真实电动汽车测试台数据进行了测试，以显示生成可行调度的实用性以及至少 57.23% 的损耗改善。

非线性意见动态中分歧的自适应偏差及其在劳动分工演化博弈中的应用

分类： 系统与控制, 多代理系统, 机器人技术, 系统与控制

作者： Tyler M. Paine, Anastasia Bizyaeva, Michael R. Benjamin

发布时间： 2024-09-21

链接： http://arxiv.org/abs/2409.13964v1

摘要： 本文解决了自适应控制非线性意见动态（NOD）中的偏差参数的问题，以将代理分配到任意大小的组中，以最大化集体奖励。在之前的工作中，基于 NOD 与多目标行为优化耦合的算法已成功部署为自主任务分配现场实验中的多机器人系统的一部分。受现场结果的启发，在本文中，我们提出并分析了一种新的任务分配模型，该模型将 NOD 与进化博弈框架相结合。我们证明了充分的条件，在这些条件下，可以通过使用去中心化反馈的自适应偏差来控制群体中的意见状态，以实现两个任务之间代理的期望分配。然后，我们通过协作进化分工博弈的模拟研究来验证理论结果。

用于全厂动态调度的可扩展多代理强化学习

分类： 多代理系统, 人工智能

作者： Jaeyeon Jang, Diego Klabjan, Han Liu, Nital S. Patel, Xiuqi Li, Balakrishnan Ananthanarayanan, Husam Dauod, Tzung-Han Juang

发布时间： 2024-09-20

链接： http://arxiv.org/abs/2409.13571v1

摘要： 由于决策复杂性高，实时动态调度是现代制造过程中一项至关重要但又极具挑战性的任务。最近，强化学习（RL）作为应对这一挑战的有效技术而受到关注。然而，经典的强化学习方法通常依赖于人为的调度规则，不适合大规模工厂范围内的调度。为了弥补这一差距，本文应用领导者-跟随者多代理强化学习 (MARL) 概念，将调度问题分解为一组子问题，由每个单独的代理处理以实现可扩展性，从而获得所需的协调。我们通过提出基于规则的转换算法来进一步加强该过程，以防止由于代理错误而导致生产能力的灾难性损失。我们的实验结果表明，所提出的模型在各个方面都优于最先进的基于深度强化学习的调度模型。此外，所提出的模型为需求变化提供了最强大的调度性能。总体而言，所提出的基于 MARL 的调度模型为实时调度问题提供了一种有前景的解决方案，在各个制造行业都有潜在的应用。

人工智能多智能体系统中的合作弹性

分类： 多代理系统, 人工智能

作者： Manuela Chacon-Chamorro, Luis Felipe Giraldo, Nicanor Quijano, Vicente Vargas-Panesso, César González, Juan Sebastián Pinzón, Rubén Manrique, Manuel Ríos, Yesid Fonseca, Daniel Gómez-Barrera, Mónica Perdomo-Pérez

发布时间： 2024-09-20

链接： http://arxiv.org/abs/2409.13187v2

摘要： 弹性是指系统承受、适应破坏性事件并从中恢复的能力。尽管弹性研究引起了各个研究领域的极大关注，但协作人工智能领域内这一概念的准确定义仍不清楚。本文通过提出“合作弹性”的明确定义并概述其定量测量方法来解决这一差距。该方法在具有基于 RL 和 LLM 增强的自主代理的环境中得到验证，受到环境变化和引入具有不可持续行为的代理的影响。这些事件被参数化，以创建用于测量合作弹性的各种场景。结果强调了弹性指标在分析集体系统如何准备、抵抗、恢复、维持福祉以及面对破坏时进行转型方面的关键作用。这些发现为合作弹性的定义、测量和初步分析提供了基础见解，为更广泛的人工智能领域提供了重大影响。此外，这里开发的方法和指标可以适应广泛的人工智能应用，增强人工智能在动态和不可预测的环境中的可靠性和有效性。

一种基于价值的并行更新 MCTS 方法，用于联网和自动驾驶汽车的多智能体协作决策

分类： 多代理系统, 人工智能, 计算机科学与博弈论, 系统与控制, 系统与控制

作者： Ye Han, Lijun Zhang, Dejian Meng, Xingyu Hu, Songyu Weng

发布时间： 2024-09-20

链接： http://arxiv.org/abs/2409.13783v1

摘要： 为解决车联网和自动驾驶汽车（CAV）多车协同驾驶的横向和纵向联合决策问题，提出一种并行更新的蒙特卡罗树搜索（MCTS）方法，用于有限的多智能体马尔可夫博弈。范围和时间折扣设置。通过分析部分稳态交通流中多车联合动作空间中的并行动作，并行更新方法可以快速排除潜在的危险动作，从而在不牺牲搜索广度的情况下增加搜索深度。所提出的方法在大量随机生成的流量中进行了测试。实验结果表明，该算法具有良好的鲁棒性，性能优于SOTA强化学习算法和启发式方法。采用该算法的车辆驾驶策略显示出超越人类驾驶员的合理性，并且在协调区域的交通效率和安全性方面具有优势。

多智能体 Vulcan：信息驱动的多智能体路径查找方法

分类： 多代理系统, 机器人技术

作者： Jake Olkin, Viraj Parimi, Brian Williams

发布时间： 2024-09-19

链接： http://arxiv.org/abs/2409.13065v1

摘要： 科学家在探索新环境时经常寻找感兴趣的现象。部署自动驾驶车辆是为了探索人工驾驶车辆成本高昂或危险的区域。用于信息收集的自动驾驶车辆的在线控制称为自适应采样，可以构建为以信息增益为主要目标的 POMDP。虽然之前的工作主要集中在单智能体场景，但本文面临多智能体自适应采样特有的挑战，例如避免冗余观测、防止车辆碰撞以及在有限通信下促进路径规划。我们从多智能体路径查找（MAPF）方法开始，该方法通过将 MAPF 问题分解为一系列单智能体路径规划问题来解决碰撞避免问题。然后，我们提出信息驱动的 MAPF，它解决了有限通信下的多智能体信息增益问题。首先，我们引入了一种可接受的启发式算法，它将互信息增益放宽为一个加性函数，该函数可以被评估为一组独立的单代理路径规划问题。其次，我们将我们的方法扩展到对有限通信具有鲁棒性的分布式系统。当所有特工都在范围内时，该小组将共同计划最大化信息。当一些代理移出范围时，会形成通信子组，并且子组独立进行计划。由于当车辆相距较远时，冗余观测的可能性较小，因此这种方法只会导致信息增益的微小损失，从而实现从完全通信到部分通信的优雅过渡。我们将我们的方法与各种场景（包括现实世界的机器人应用）中的其他自适应采样策略进行比较。我们的方法能够在某些场景中定位最多 200% 的独特现象，并且每个智能体定位其第一个独特现象的速度最多可提高 50%。

CAV 的社会影响——路线选择中机器与人类的共存

分类： 多代理系统

作者： Grzegorz Jamróz, Ahmet Onur Akman, Anastasia Psarou, Zoltán Györgi Varga, Rafał Kucharski

发布时间： 2024-09-19

链接： http://arxiv.org/abs/2409.12839v1

摘要： 假设在一个仅由人类驾驶车辆 (HDV) 组成的稳定城市交通系统中，一定比例（例如 10%）被互联自动驾驶车辆 (CAV) 车队取代，这些车辆共享信息并追求共同目标。假设这些车辆是集中协调的，与 HDV 的不同之处仅在于它们的集体能力，使它们能够在某一天的出行开始之前做出更有效的路线决策。假设有两条路线可供选择，每个司机每天都会决定走哪条路线。人类驾驶员最大化其效用。 CAV 可能会优化不同的目标，例如车队的总行驶时间。我们表明，在这种看似合理的未来环境中，允许 CAV 采取的策略可能会导致人类驾驶员受益或系统性地处于不利地位，并且城市网络或多或少变得最优。因此，一些监管措施可能变得不可或缺。

未知网络拓扑的连续时间多智能体系统的数据驱动协同输出调节

分类： 多代理系统, 系统与控制, 系统与控制

作者： Peng Ren, Yuqing Hao, Zhiyong Sun, Qingyun Wang, Guanrong Chen

发布时间： 2024-09-19

链接： http://arxiv.org/abs/2409.12824v1

摘要： 本文研究了具有未知网络拓扑的连续时间多智能体系统的数据驱动的协作输出调节。与通常假设已知网络拓扑来直接计算控制器参数的现有研究不同，提出了一种新方法，允许在不事先了解拓扑的情况下计算参数。仅使用边权重界限来估计拉普拉斯矩阵的最小非零特征值的下界，使得输出调节控制器设计能够独立于全局网络信息。此外，消除了对状态导数测量的常见需求，从而减少了数据需求量。此外，建立了必要和充分的条件，以确保数据为协作输出调节提供信息，从而设计了分布式输出调节控制器。对于有噪声数据的情况，提供了输出误差的界限，该界限与噪声界限正相关，并且构造了分布式控制器以进行近似协作输出调节。最后，通过数值模拟验证了所提方法的有效性。

思想迭代：利用内部对话进行自主大语言模型推理

分类： 计算和语言, 人工智能, 机器学习, 多代理系统

作者： Santosh Kumar Radha, Yasamin Nouri Jelyani, Ara Ghukasyan, Oktay Goktas

发布时间： 2024-09-19

链接： http://arxiv.org/abs/2409.12618v1

摘要： 迭代人类参与是利用大型语言模型 (LLM) 的高级语言处理能力的常见且有效的方法。以对话方式使用结构良好的提示，人类用户可以有效地影响大语言模型，以制定更周到、更准确的答复。受这一见解的启发，我们提出了思想迭代（IoT）框架，通过针对输入查询和大语言模型响应的当前迭代生成“思考”提示来增强大语言模型响应。与静态或半静态方法不同，例如物联网采用思想链 (CoT) 或思想树 (ToT)，根据不断变化的上下文动态调整其推理路径，并且不会生成最终被丢弃的替代探索性思想。物联网框架的三个组成部分是（1）内部对话代理（IDA），负责生成指导性的、特定于上下文的提示； (2) LLM 代理 (LLMA)，处理这些提示以完善其响应； (3) 一个迭代提示循环，用于实现前两个组件之间的对话。我们引入了框架的两种变体：自主思想迭代（AIoT），其中大语言模型决定何时停止迭代，以及引导思想迭代（GIoT），它始终强制进行固定次数的迭代。我们研究了物联网在各种数据集上的性能，涵盖 GPQA 数据集的复杂推理任务、Game of 24 中的探索性问题解决、Mini Crosswords 中的谜题解决以及 HotpotQA 数据集的多跳问答。我们的结果表明，物联网代表了大语言模型自主响应细化的可行范例，展示了相对于 CoT 的显着改进，从而实现了更具适应性和更高效的推理系统，最大限度地减少了人为干预。

竞争递减的 Friedkin-Johnsen 模型

分类： 系统与控制, 多代理系统, 系统与控制

作者： Luca Ballotta, Áron Vékássy, Stephanie Gil, Michal Yemini

发布时间： 2024-09-19

链接： http://arxiv.org/abs/2409.12601v2

摘要： 这封信研究了竞争减弱或顽固的弗里德金-约翰森（FJ）模型。最初的 FJ 模型假设固定竞争，这通过每个代理除了通过共识动态做出的贡献之外还对其初始意见赋予的恒定权重来体现。这封信研究了竞争减弱对 FJ 动力学收敛点和速度的影响。我们证明，如果各主体之间的竞争是均匀的并且渐近消失，那么收敛点与在没有竞争的情况下达成的名义共识一致。然而，竞争的减弱会根据其自身的衰减速度减慢收敛速度。我们分析评估这种现象，并提供收敛速度的上限和下限。如果客户之间的竞争不均匀，我们表明收敛点可能与名义共识点不一致。最后，我们以数字方式评估和验证我们的分析见解。

多主体市场模型可以解释人工智能交易者对金融市场的影响——GARCH模型的新微观基础

分类： 计算金融, 人工智能, 多代理系统, 交易和市场微观结构

作者： Kei Nakagawa, Masanori Hirano, Kentaro Minami, Takanobu Mizuta

发布时间： 2024-09-19

链接： http://arxiv.org/abs/2409.12516v1

摘要： 金融市场中的人工智能交易者引发了人们对其对价格形成机制和市场波动的影响的极大兴趣，从而对市场稳定性和监管提出了重要问题。尽管存在这种兴趣，但定量评估人工智能交易者具体影响的综合模型仍未开发出来。本研究旨在利用微观基础的概念，通过在多主体框架内模拟人工智能交易者对市场价格形成和波动的影响来解决这一差距。微观基础涉及通过个体经济主体的决策和相互作用来理解宏观经济现象，例如市场价格的形成。尽管微观基础方法在宏观经济学中得到了广泛认可，但在实证金融领域仍未得到探索，特别是像 GARCH 模型这样的模型，该模型捕捉了波动性聚类和厚尾等关键的金融统计特性。本研究提出了一种多主体市场模型来推导 GARCH 模型的微观基础，其中包含三种类型的主体：噪音交易者、基本面交易者和人工智能交易者。通过对这些代理的微观结构进行数学聚合，我们建立了 GARCH 模型的微观基础。我们通过多主体模拟验证了该模型，确认其再现金融市场的程式化事实的能力。最后，我们使用从这些微观基础得出的参数来分析人工智能交易者的影响，有助于更深入地了解他们在市场动态中的作用。

异构混合流量控制与协调

分类： 多代理系统

作者： Iftekharul Islam, Weizi Li, Shuai Li, Kevin Heaslip

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12330v1

摘要： 城市十字路口充满了从小型汽车到大型半挂车的各种车辆，对交通控制和管理提出了持续的挑战。这一现实促使我们研究机器人车辆 (RV) 如何改变这种异构交通流，特别是在无信号交叉口，传统的控制方法在停电和紧急情况下往往会失效。我们利用强化学习 (RL) 和现实世界的交通数据，通过将房车渗透率从 10% 调整到 90%，研究逐步自动化下复杂交叉路口的异构混合交通。结果令人信服：与有信号交叉口和无信号交叉口相比，平均等待时间分别减少了 86% 和 91%。此外，我们还发现了“稀有优势”，即卡车等使用频率较低的车辆从 RV 协调中受益最多（高达 87%）。与通过红绿灯管理交通相比，房车的存在还可以减少二氧化碳排放和燃料消耗。此外，随着 RV 率的增加，所有车辆类型的车头间距都会减少，这表明道路空间利用率更高。

将数据置于离线多智能体强化学习的中心

分类： 机器学习, 人工智能, 多代理系统

作者： Claude Formanek, Louise Beyers, Callum Rhys Tilbury, Jonathan P. Shock, Arnu Pretorius

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.12001v1

摘要： 离线多智能体强化学习（MARL）是一个令人兴奋的研究方向，它使用静态数据集来寻找多智能体系统的最优控制策略。尽管该领域从定义上来说是数据驱动的，但迄今为止，在实现最先进结果的过程中，人们一直忽视了数据。我们首先通过调查文献来证实这一说法，展示大多数作品如何在没有一致方法的情况下生成自己的数据集，并提供有关这些数据集特征的稀疏信息。然后，我们通过算法性能与所使用的数据集紧密耦合的突出示例来说明为什么忽略数据的性质是有问题的，这需要为该领域的实验奠定一个共同的基础。为此，我们在提高离线 MARL 的数据使用和数据意识方面迈出了一大步，做出了三个关键贡献：（1）生成新颖数据集的明确指南； (2) 对 80 多个现有数据集进行标准化，托管在公共可用的存储库中，使用一致的存储格式和易于使用的 API； (3) 一套分析工具，使我们能够更好地理解这些数据集，帮助进一步开发。

XP-MARL：多智能体强化学习中的辅助优先级处理非平稳性

分类： 机器人技术, 计算机科学与博弈论, 多代理系统

作者： Jianye Xu, Omar Sobhy, Bassam Alrifaee

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11852v1

摘要： 非平稳性对多智能体强化学习（MARL）提出了根本性挑战，这是由于智能体同时学习和改变其策略而产生的。从每个个体的角度来看，这会创建一个非平稳的环境，通常会导致学习结果不理想甚至不收敛。我们提出了一个名为 XP-MARL 的开源框架，它通过辅助优先级来增强 MARL，以应对合作环境中的这一挑战。 XP-MARL 1) 基于我们的假设，即对代理进行优先级排序并让较高优先级的代理首先建立其操作将稳定学习过程，从而减轻非平稳性；2) 由我们提出的称为操作传播的机制实现，其中较高优先级的代理代理首先采取行动并传达他们的行为，为其他人提供一个更加稳定的环境。此外，XP-MARL 不使用预定义或启发式优先级分配，而是通过辅助 MARL 问题学习优先级分配策略，从而形成联合学习方案。涉及联网和自动驾驶车辆 (CAV) 的运动规划场景中的实验表明，XP-MARL 将基线模型的安全性提高了 84.4%，并且优于最先进的方法，后者仅将基线提高了 12.8% 。代码：github.com/cas-lab-munich/sigmarl

HARP：用于多智能体强化学习的人辅助重组与排列不变批评

分类： 机器学习, 人工智能, 人机交互, 多代理系统

作者： Huawen Hu, Enze Shi, Chenxi Yue, Shuocun Yang, Zihao Wu, Yiwei Li, Tianyang Zhong, Tuo Zhang, Tianming Liu, Shu Zhang

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11741v1

摘要： 人机循环强化学习集成了人类专业知识，以加速代理学习并在复杂领域提供关键指导和反馈。然而，许多现有方法侧重于单代理任务，并且在训练过程中需要持续的人工参与，这显着增加了人工工作量并限制了可扩展性。在本文中，我们提出了 HARP（具有排列不变批评的人工辅助重组），这是一种专为面向群体的任务而设计的多智能体强化学习框架。 HARP 将自动代理重组与部署期间的战略人工协助相结合，使非专家能够以最少的干预提供有效的指导。在训练期间，代理动态调整其分组以优化协作任务的完成。部署后，它们会积极寻求人工帮助，并利用排列不变组批评家来评估和完善人工建议的分组，从而允许非专家用户贡献有价值的建议。在多种协作场景中，我们的方法能够利用非专家的有限指导并提高性能。该项目可以在 https://github.com/huawen-hu/HARP 找到。

多机器人连接实现集体障碍场穿越

分类： 机器人技术, 多代理系统

作者： Haodi Hu, Xingjue Liao, Wuhao Du, Feifei Qian

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11709v1

摘要： 地形高度变化较大的环境对腿式机器人的运动提出了巨大的挑战。受到火蚁集体组装行为的启发，我们研究了一些策略，可以使两个“可连接”机器人共同在高度变化大于机器人腿长的崎岖地形上导航。每个机器人都设计得极其简单，有一个立方体主体和一个旋转电机，驱动四个成对移动的垂直木腿。两个或多个机器人可以相互物理连接，以增强集体移动性。我们用两个机器人组进行了运动实验，穿过充满均匀分布的半球形“巨石”的障碍物场。实验测量的机器人速度表明，机器人之间的连接长度对集体移动性有显着影响：[0.86，0.9]机器人单位身体长度（UBL）中的连接长度C能够产生跨越障碍物场的可持续运动，而连接[0.63, 0.84] 和 [0.92, 1.1] UBL 中的长度 C 导致可遍历性较低。基于能量景观的模型揭示了连接长度如何通过系统的势能景观调节集体移动性的基本机制，并为双机器人系统提供了适应策略，以调整其连接长度以穿越具有不同空间频率的障碍物场。我们的结果表明，通过改变机器人之间的连接配置，双机器人系统可以利用机械智能更好地利用障碍物相互作用力并产生改进的运动。展望未来，我们设想机器人与环境耦合的通用原理可以为一大群小型机器人的设计和控制策略提供信息，以实现类似蚂蚁的集体环境协商。

基于超图的多模态交互关系推理运动生成

分类： 机器人技术, 人工智能, 机器学习, 多代理系统

作者： Keshu Wu, Yang Zhou, Haotian Shi, Dominique Lord, Bin Ran, Xinyue Ye

发布时间： 2024-09-18

链接： http://arxiv.org/abs/2409.11676v1

摘要： 现实世界驾驶环境的复杂性，其特点是多辆车辆之间及其未来可能的状态之间动态和多样化的相互作用，这对准确预测车辆的运动状态和处理预测中固有的不确定性提出了相当大的挑战。应对这些挑战需要全面的建模和推理，以捕获车辆之间的隐含关系以及相应的不同行为。本研究引入了自动驾驶车辆 (AV) 运动预测的集成框架，利用新型关系超图交互通知神经运动生成器 (RHINO) 来解决这些复杂性。 RHINO 通过集成多尺度超图神经网络，利用基于超图的关系推理来对多辆车之间的分组交互及其多模式驾驶行为进行建模，从而提高运动预测的准确性和可靠性。使用真实世界数据集的实验验证证明了该框架在提高预测准确性和在动态交通场景中促进社会意识自动驾驶方面具有卓越的性能。

Hyper-SAMARL：基于超图的多机器人系统协调任务分配和社交感知导航

分类： 机器人技术, 多代理系统

作者： Weizheng Wang, Aniket Bera, Byung-Cheol Min

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11561v1

摘要： 由多个机器人组成的团队在充满人类的公共环境中无缝、安全地工作，需要自适应任务分配和社交意识导航来解释动态人类行为。当前的方法难以应对高度动态的行人运动以及灵活任务分配的需求。我们提出了 Hyper-SAMARL，这是一种基于超图的系统，利用多智能体强化学习（MARL）进行多机器人任务分配和社交感知导航。 Hyper-SAMARL 使用超图对机器人、人类和兴趣点 (POI) 之间的环境动态进行建模，从而通过超图扩散机制实现自适应任务分配和社交兼容导航。我们的框架经过 MARL 训练，可以有效捕获机器人和人类之间的交互，根据人类活动的实时变化来调整任务。实验结果表明，Hyper-SAMARL 在社交导航、任务完成效率以及各种模拟场景的适应性方面均优于基线模型。

LLM-Agent-UMF：基于LLM的代理统一建模框架，用于无缝集成多个主动/被动核心代理

分类： 软件工程, 人工智能, 密码学和安全, 多代理系统

作者： Amine B. Hassouna, Hana Chaari, Ines Belhaj

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11393v1

摘要： 基于LLM的代理中的工具集成克服了独立LLM和传统代理能力有限的困难。然而，这些技术的结合以及几个最先进作品中提出的增强功能遵循非统一的软件架构，导致缺乏模块化。事实上，他们主要关注功能而忽略了代理内组件边界的定义。这导致了研究人员之间术语和架构上的歧义，我们在本文中通过提出一个统一的框架来解决这一问题，该框架从功能和软件架构的角度为基于 LLM 的代理开发奠定了明确的基础。我们的框架 LLM-Agent-UMF（基于 LLM 的代理统一建模框架）清楚地区分了代理的不同组件，将 LLM 和工具与新引入的元素分开：核心代理，扮演代理的角色代理的中央协调器，由五个模块组成：规划、记忆、配置文件、行动和安全，后者在以前的工作中经常被忽视。核心主体内部结构的差异使我们将它们分为被动型和主动型的分类。在此基础上，我们结合各种个体代理的独特特征，提出了不同的多核代理架构。出于评估目的，我们将此框架应用于精选的最先进代理，从而证明其与其功能的一致性并澄清了被忽视的架构方面。此外，我们通过将独特的代理集成到混合主动/被动核心代理系统中，彻底评估了我们提出的四种架构。该分析提供了对潜在改进的清晰见解，并强调了特定药物组合所涉及的挑战。

CORE-Bench：通过计算再现性代理基准提高已发表研究的可信度

分类： 计算和语言, 人工智能, 多代理系统

作者： Zachary S. Siegel, Sayash Kapoor, Nitya Nagdir, Benedikt Stroebl, Arvind Narayanan

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11363v1

摘要： 人工智能代理有潜力帮助用户完成各种后续任务，包括进行科学研究。为了刺激有用代理的开发，我们需要具有挑战性的基准，但更重要的是，直接对应于现实世界中感兴趣的任务。本文介绍了这样一个基准，旨在衡量人工智能代理在解决科学研究中一个关键但令人惊讶的挑战性方面的准确性：计算再现性。这项任务是科学过程的基础，涉及使用提供的代码和数据重现研究结果。我们推出了 CORE-Bench（计算再现性代理基准），这是一个由 270 项任务组成的基准，基于三个学科（计算机科学、社会科学和医学）的 90 篇科学论文。 CORE-Bench 中的任务由三个难度级别组成，包括纯语言任务和视觉语言任务。我们提供了一个评估系统，以快速且可并行的方式测量代理的准确性，与顺序实施相比，每次运行可以节省数天的评估时间。我们评估了两种基准代理：通用 AutoGPT 和称为 CORE-Agent 的任务特定代理。我们使用两种底层语言模型测试了这两种变体：GPT-4o 和 GPT-4o-mini。最好的智能体在最困难的任务上达到了 21% 的准确率，显示出在自动化日常科学任务方面还有巨大的改进空间。拥有能够重现现有工作的智能体是构建能够进行新颖研究并能够验证和提高其他研究智能体性能的智能体的必要步骤。我们希望 CORE-Bench 能够提高可重复性状态并刺激未来研究代理的发展。

用于多无人机探索的on-policy Actor-Critic强化学习

分类： 多代理系统, 机器学习

作者： Ali Moltajaei Farid, Jafar Roshanian, Malek Mouhoub

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.11058v1

摘要： 无人机（UAV）在精准农业、搜索救援、遥感等各个领域越来越受欢迎。然而，探索未知环境仍然是一个重大挑战。本研究旨在通过利用策略强化学习 (RL) 和近端策略优化 (PPO) 来探索多个无人机感兴趣的{二维}区域，从而应对这一挑战。无人机将避免与障碍物和彼此碰撞，并以分布式方式进行探索。所提出的解决方案包括使用深度卷积神经网络 {(CNN)} 和长短期记忆 (LSTM) 的演员批评家网络来识别无人机和已覆盖的区域。与其他 RL 技术（例如策略梯度（PG）和异步优势行动者批评家（A3C））相比，模拟结果证明了所提出的 PPO 方法的优越性。此外，结果表明，在 Critic 中将 LSTM 与 CNN 相结合可以改进探索。由于所提出的探索必须在未知环境中进行，结果表明，当我们拥有与训练后的地图不同的新地图时，所提出的设置可以完成覆盖范围。最后，我们展示了调整超参数如何影响整体性能。

SIFToM：遵循心理理论的强有力的口头指导

分类： 机器人技术, 人工智能, 人机交互, 多代理系统

作者： Lance Ying, Jason Xinyu Liu, Shivam Aarya, Yizirui Fang, Stefanie Tellex, Joshua B. Tenenbaum, Tianmin Shu

发布时间： 2024-09-17

链接： http://arxiv.org/abs/2409.10849v1

摘要： 口头语言指令在代理协作中无处不在。然而，在人机协作中，人类语音的识别准确性往往受到各种语音和环境因素的影响，例如背景噪声、说话者的口音和发音错误。当面对嘈杂或陌生的听觉输入时，人类利用上下文和先验知识来消除刺激的歧义并采取务实的行动，这一过程在认知科学中被称为自上而下的处理。我们提出了一种认知启发模型，即通过心理理论进行语音指令（SIFToM），通过推断人类的目标和联合计划作为语音感知和理解的先验，使机器人能够在不同的语音条件下务实地遵循人类指令。我们在模拟家庭实验 (VirtualHome 2) 中测试 SIFToM。结果表明，SIFToM 模型的性能优于最先进的语音和语言模型，在执行具有挑战性的语音指令任务时接近人类水平的准确性。然后，我们在用于早餐准备任务的移动机械手上展示其任务规划级别的能力。

将可重用的多机器人规划策略编码为抽象超图

分类： 机器人技术, 人工智能, 多代理系统

作者： Khen Elimelech, James Motes, Marco Morales, Nancy M. Amato, Moshe Y. Vardi, Lydia E. Kavraki

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10692v1

摘要： 多机器人任务规划（MR-TP）是寻找机器人团队完成任务时应采取的离散行动计划。此类问题的复杂性随着机器人数量和任务复杂性呈指数级增长，这使得它们对在线解决方案具有挑战性。为了在系统的生命周期内加速 MR-TP，这项工作着眼于结合两项最新进展：（i）可分解状态空间超图（DaSH），一种基于超图的新型框架，可有效建模和解决 MR-TP 问题；和 \mbox{(ii) 抽象学习}，一种能够从个人规划经验中自动提取通用规划策略以供以后重用的技术。具体来说，我们希望扩展这种最初为单机器人规划设计的策略学习技术，以使用基于超图的 MR-TP 来有益于多机器人规划。

连续环境中的多智能体路径查找

分类： 多代理系统, 人工智能

作者： Kristýna Janovská, Pavel Surynek

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10680v1

摘要： 我们解决了连续环境中多智能体寻路的变体（CE-MAPF），其中智能体沿着平滑曲线组移动。代理之间的碰撞通过空间域中的回避来解决。这项工作提出了一种新的基于连续环境冲突的搜索（CE-CBS）算法。 CE-CBS 将用于高级搜索框架的基于冲突的搜索 (CBS) 与用于低级路径规划的 RRT* 相结合。 CE-CBS 算法在不同 CE-MAPF 实例的不同设置下进行了测试。实验结果表明，CE-CBS 具有竞争力。到其他考虑 MAPF 中连续方面的算法，例如具有连续时间的 MAPF。

抗体开发的对手塑造

分类： 种群与进化, 人工智能, 计算机科学与博弈论, 多代理系统, 92-08, I.2.1; J.3

作者： Sebastian Towers, Aleksandra Kalisz, Alicia Higueruelo, Francesca Vianello, Ming-Han Chloe Tsai, Harrison Steel, Jakob N. Foerster

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10588v1

摘要： 抗病毒疗法通常是针对当前病毒株而设计或进化的。在学习方面，这对应于短视的最佳反应，即不考虑对手可能的自适应动作。然而，治疗引起的选择性压力作用于病毒抗原，导致突变株的出现，而最初的治疗会降低其疗效。为了激励我们的工作，我们考虑的抗体设计不仅针对当前的病毒株，还针对病毒在所述抗体施加的进化压力下可能进化成的各种未来可能的变体。基于抗体和病毒抗原之间结合的计算模型（Absolut！框架），我们设计并实现了病毒进化逃逸的遗传模拟。至关重要的是，这使得我们的抗体优化算法能够考虑并影响病毒的整个逃逸曲线，即引导（或“塑造”）病毒进化。这是受到对手塑造的启发，在一般求和学习中，对手塑造考虑了共同玩家的适应，而不是做出短视的最佳反应。因此，我们将优化的抗体称为塑造者。在我们的模拟中，我们证明我们的整形器针对当前和模拟的未来病毒变体，优于以短视方式选择的抗体。此外，我们还发现，与近视抗体相比，塑造者对病毒施加了特定的进化压力。总而言之，与近视的对应物相比，塑造者改变了病毒株的进化轨迹，并最大限度地减少了病毒的逃逸。虽然这是一个简单的模型，但我们希望我们提出的范例能够通过模拟工具功能的快速进步，在未来发现更好的长寿命疫苗和抗体疗法。

将 Leximin 公平性降低为功利优化

分类： 计算机科学与博弈论, 数据结构和算法, 多代理系统

作者： Eden Hartman, Yonatan Aumann, Avinatan Hassidim, Erel Segal-Halevi

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10395v1

摘要： 社会选择中的两个突出目标是功利主义——最大化代理人的效用总和，以及词义最小化——最大化最小的代理人的效用，然后最大化第二小的代理人的效用，等等。功利主义通常在计算上更容易实现，但通常被认为不太公平。本文提出了一种通用的归约方案，在给定功利主义求解器的情况下，产生的结果分布是 leximin 的期望值。重要的是，该方案在某种意义上是稳健的，即给定一个近似功利主义求解器，它会产生一个近似 Leximin（预期）的结果 - 具有相同的近似因子。我们将我们的方案应用于几个社会选择问题：不可分割商品的随机分配、赠品彩票和参与式预算的公平彩票。

基于同步的协作分布式模型预测控制

分类： 系统与控制, 多代理系统, 机器人技术, 系统与控制

作者： Julius Beerwerth, Maximilian Kloock, Bassam Alrifaee

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10215v1

摘要： 众所周知，与集中式控制算法相比，分布式控制算法可以减少总体计算时间。然而，它们可能会导致解决方案不一致，从而违反安全关键约束。当两个或多个代理在对彼此的控制操作进行预测时同时计算时，可能会出现不一致的解决方案。为了解决这个问题，我们提出了一种称为基于同步的协作分布式模型预测控制的迭代算法，我们在[1]中提出了该算法。该算法由两个步骤组成：1. 计算每个智能体的最优控制输入；2. 同步所有智能体的预测状态。我们在网络物理移动实验室中展示了我们的算法在控制多个小型车辆方面的功效。

使用速度障碍和控制障碍函数的多智能体避障

分类： 机器人技术, 多代理系统

作者： Alejandro Sánchez Roncero, Rafael I. Cabral Muchacho, Petter Ögren

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10117v1

摘要： 速度障碍（VO）方法形成了移动障碍物和智能体之间避免碰撞策略的范例。虽然 VO 方法在简单的多智能体环境中表现良好，但它们不能保证安全性，并且在常见情况下会表现出过于保守的行为。在本文中，我们建议将 VO 指导策略与 CBF 安全方法相结合，克服 VO 过于保守的行为并正式保证安全。我们使用二阶积分器和类汽车动力学在基线比较研究中验证了我们的方法。结果表明我们的方法优于基线。路径平滑度、避免碰撞和成功率。

基于轴承距离的聚集和基于区域的交互

分类： 多代理系统

作者： Hossein B. Jond

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.10047v1

摘要： 本文提出了一种适用于动态多智能体系统（MAS）的新型基于区域的集群控制方法。受雷诺兹 $boids$ 行为规则的启发，引入了包含排斥、冲突、吸引和监视区域的群体行为规则。对于每个智能体，仅使用方位和距离测量，行为偏差向量量化与局部分离、局部和全局群体速度对齐、局部凝聚力、避障和边界条件以及避免外来智能体的策略分离的偏差。控制策略使用基于局部感知的行为偏差向量来指导每个智能体的运动。此外，控制策略还结合了方向感知避障机制，优先考虑代理前进路径中的障碍。仿真结果验证了该方法在创建灵活、适应性强和可扩展的集群行为方面的有效性。

概率通信下分散子模最大化的最优性差距

分类： 多代理系统, 可能性

作者： Joan Vendrell, Solmaz Kia

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.09979v1

摘要： 本文考虑使用具有概率代理间消息传递的顺序贪婪算法来解决受分区拟阵约束的分散子模最大化问题。我们提出了一个通信感知框架，其中考虑了连接设备之间成功通信的概率。我们的分析引入了概率最优间隙的概念，强调了它对基于代理的广播可靠性和关于可以在资源有限的环境中多次广播其消息的代理的策略决策来确定消息传递序列的潜在影响。这项工作不仅提供了理论见解，而且对于在不确定的通信环境中设计和分析去中心化系统具有实际意义。数值示例展示了我们结果的影响。

上下文感知广告建模及其在快速交通系统中的应用

分类： 多代理系统, 计算机与社会

作者： Afzal Ahmed, Muhammad Raees

发布时间： 2024-09-16

链接： http://arxiv.org/abs/2409.09956v1

摘要： 在当今的企业中，营销已成为增长的核心趋势。营销质量与产品质量和相关指标同样重要。营销的质量取决于针对正确的人。在许多领域，技术的适应进展缓慢，但已经对人类生活的某些方面产生了影响。例如，在营销领域，最近的发展已经向数据驱动方法发生了重大转变。在本文中，我们提出了一种使用行为和跟踪分析的广告模型。我们秉承隐私原则提取用户的行为数据，并进行数据操作和模式挖掘以进行有效的分析。我们提出了一个使用基于代理的建模（ABM）技术的模型，以快速交通系统用户为目标受众，以针对合适的人进行广告应用。我们还概述了 ABM 的概述、设计和细节概念。

有限驱动下的分散式安全且可扩展的多智能体控制

分类： 机器人技术, 多代理系统, 系统与控制, 系统与控制

作者： Vrushabh Zinage, Abhishek Jha, Rohan Chandra, Efstathios Bakolas

发布时间： 2024-09-15

链接： http://arxiv.org/abs/2409.09573v1

摘要： 为了在杂乱的环境中部署安全敏捷的机器人，需要开发完全分散的控制器，以保证安全、尊重驱动限制、防止死锁并扩展到数千个代理。当前的方法无法满足所有这些目标：基于优化的方法确保安全性但缺乏可扩展性，而基于学习的方法可扩展但不能保证安全性。我们提出了一种新颖的算法，可以在有限的驱动下实现对多个代理的安全和可扩展的控制。具体来说，我们的方法包括：$(i)$学习分散式神经积分控制屏障函数（神经ICBF）以实现可扩展的输入约束控制，$(ii)$嵌入基于轻量级分散模型预测控制的积分控制屏障函数（ MPC-ICBF）纳入神经网络策略中，以确保安全性，同时保持可扩展性，并且 $(iii)$ 引入了一种新颖的方法来最小化死锁，该方法基于机器学习中基于梯度的优化技术，以解决死锁中的局部最小值。我们的数值模拟表明，这种方法在安全性、输入约束满足和最小化死锁方面优于最先进的多智能体控制算法。此外，我们在不同代理数量的场景中展示了强大的泛化能力，最多可扩展到 1000 个代理。

在不确定环境中的规划过程中增加信息的价值

分类： 人工智能, 多代理系统, 机器人技术

作者： Gaurab Pokharel

发布时间： 2024-09-14

链接： http://arxiv.org/abs/2409.13754v1

摘要： 先前的研究表明，对于许多现实世界的问题，POMDP 可以通过在线算法快速且接近最优地解决。然而，在一组重要的问题上，代理可以收集信息和需要使用该信息之间存在很大的时间延迟，这些解决方案未能充分考虑信息的价值。因此，信息收集行为，即使对于最优策略至关重要，也会被现有解决方案忽略，从而导致代理做出次优决策。在这项研究中，我们开发了一种新颖的解决方案，通过引入一种新算法来纠正这个问题，该算法通过更好地反映收集信息的行动的价值来改进最先进的在线规划。我们通过将熵添加到 POMCP 算法中的 UCB1 启发式中来实现此目的。我们在走廊问题上测试了这个解决方案。结果表明我们的新算法的性能明显优于 POMCP。

协同模拟：使用大型语言模型解决多智能体问题

分类： 多代理系统, 人工智能, 计算和语言, 新兴技术

作者： Asher Sprigler, Alexander Drobek, Keagan Weinstock, Wendpanga Tapsoba, Gavin Childress, Andy Dao, Lucas Gral

发布时间： 2024-09-14

链接： http://arxiv.org/abs/2409.13753v1

摘要： 大型语言模型（LLM）越来越多地证明了促进多智能体系统开发的能力，该系统允许解释每个人产生的思想和行动。基于大语言模型的与现有世界的交互，特别是与模拟环境的交互，也取得了有希望的进步。本文旨在将上述两个主题（智能体和世界交互）整合到一个模拟中，多个智能体可以一起工作来解决问题，模拟人类群体通常如何比个人更好地解决问题。通过展示大语言模型是否表现出人类协作的协同作用，它可能会导致大语言模型应用的进步。我们实现了两个模拟：一个有两个室友的物理单间公寓，另一个是代理协作完成编程任务。我们提供了一个多代理框架，讨论了每次模拟中代理的性能，并讨论了未来可能添加的内容。

论基于代理模型中代理的局限性

分类： 多代理系统, 人工智能

作者： Ayush Chopra, Shashank Kumar, Nurullah Giray-Kuru, Ramesh Raskar, Arnau Quera-Bofarull

发布时间： 2024-09-14

链接： http://arxiv.org/abs/2409.10568v1

摘要： 基于代理的建模 (ABM) 旨在通过模拟在环境中运行和交互的代理集合来理解复杂系统的行为。它们的实际用途需要捕获现实的环境动态和自适应代理行为，同时有效地模拟百万规模的群体。大语言模型 (LLM) 的最新进展提供了通过使用 LLM 作为代理来增强 ABM 的机会，该代理具有捕获自适应行为的进一步潜力。然而，对于大量人群使用大语言模型的计算不可行性阻碍了其广泛采用。在本文中，我们介绍了 AgentTorch——一个框架，可将 ABM 扩展到数百万个代理，同时使用 LLM 捕获高分辨率代理行为。我们对大语言模型作为 ABM 代理的效用进行了基准测试，探索模拟规模和个体代理之间的权衡。以 COVID-19 大流行作为案例研究，我们展示了 AgentTorch 如何模拟代表纽约市的 840 万名特工，捕捉隔离和就业行为对健康和经济结果的影响。我们比较了基于启发式和 LLM 代理的不同代理架构在预测疾病浪潮和失业率方面的性能。此外，我们还展示了 AgentTorch 的回顾性、反事实和前瞻性分析的能力，强调了自适应代理行为如何帮助克服政策设计中历史数据的局限性。 AgentTorch 是一个开源项目，被积极用于世界各地的政策制定和科学发现。该框架可在此处获取：github.com/AgentTorch/AgentTorch。

未知环境中动态任务分配的群体算法

分类： 多代理系统, 机器人技术

作者： Adithya Balachandran, Noble Harasha, Nancy Lynch

发布时间： 2024-09-14

链接： http://arxiv.org/abs/2409.09550v1

摘要： 机器人群是由许多以分布式方式运行的机器人组成的系统，在搜索救援、自然灾害响应和自组装等领域有许多应用。其中一些应用程序可以抽象为环境中任务分配的一般问题，其中机器人必须分配自己并完成任务。虽然已经提出了几种任务分配算法，但大多数算法都假设任务位置的先验知识或一组静态任务。在任务动态出现在未知位置的离散通用模型下运行，我们提出了三种新的任务分配群体算法。我们证明，当任务出现缓慢时，我们基于传播任务信息的分布式算法的变体比 Levy 随机游走算法更有效地完成任务，Levy 随机游走算法是自然界中许多生物体用来有效搜索环境的策略。我们还提出了一种分工算法，其中一些代理使用我们基于传播任务信息的算法，而其余代理则使用 Levy 随机游走算法。最后，我们引入了一种混合算法，其中每个代理在使用传播任务信息和遵循 Levy 随机游走之间动态切换。我们表明，我们的分工和混合算法可以比基于传播任务信息的算法和 Levy walk 算法表现得更好，特别是在中低任务率下。当任务出现得很快时，我们观察到与这些新方法相比，Levy 随机游走策略的表现同样好甚至更好。我们的工作展示了这些算法在各种任务速率上的相对性能，并提供了根据环境参数优化我们的算法的见解。

有条件合作的学习推动：多智能体强化学习模型

分类： 多代理系统

作者： Shatayu Kulkarni, Sabine Brunswicker

发布时间： 2024-09-14

链接： http://arxiv.org/abs/2409.09509v1

摘要： 公共物品博弈描述了一种社会困境，其中很大一部分主体充当有条件合作者（CC）：只有当他们看到其他人合作时，他们才会合作，因为他们满足于与其他人所做的事情保持一致的社会规范优化合作。 CC 以基于愿望的强化学习为指导，以过去与他人互动的经验和满足愿望为指导。在许多现实世界中，强化社会规范并没有出现。在本文中，我们提出优化强化代理可以通过助推来促进合作，即合作发生的间接机制。代理的目标是通过自己的行动激励 CC 进行合作，以创建表明其他人正在合作的社会规范。我们引入了一种用于公共物品游戏的多智能体强化学习模型，其中 3 个 CC 学习智能体使用愿望强化学习，1 个助推智能体使用深度强化学习来学习优化合作的助推。对于我们的助推代理，我们建模了两种不同的奖励函数，一种最大化总游戏回报（总 DRL），另一种最大化高于比例阈值的合作贡献贡献数量（prop DRL）。我们的结果表明，我们的基于愿望的 CC 智能体 RL 模型与经验观察到的 CC 行为一致。结合 3 个 CC RL 智能体和 1 个助推 RL 智能体的游戏优于仅由 4 个 CC RL 智能体组成的基线。总和 DRL 助推剂使贡献总和增加 8.22%，合作贡献总比例增加 12.42%，而道具助推 DRL 使贡献总和增加 8.85%，合作贡献总比例增加 14.87%。我们的研究结果推动了有关公共物品游戏和强化学习的文献的发展。

自动驾驶车队安全可扩展监管的数据分析

分类： 系统与控制, 多代理系统, 机器人技术, 系统与控制

作者： Cameron Hickert, Zhongxia Yan, Cathy Wu

发布时间： 2024-09-14

链接： http://arxiv.org/abs/2409.09500v1

摘要： 自动驾驶是一种备受期待的消除道路死亡事故的方法。与此同时，安全性的门槛很高，验证成本也很高。这项工作考虑了远程操作人员在监督自动驾驶车辆 (AV) 车队安全方面的作用。此前提出的这种“可扩展监管”概念是为了弥合仍在成熟的自动驾驶技术与自动驾驶商业化压力之间的差距。本文提出了 DISCES，一种基于数据的安全关键事件模拟框架，从动态网络负载的角度研究这一概念的实用性。重点关注自动驾驶汽车融入混合自主交通的安全关键环境，利用微观交通重建和来自加州三个县州际公路的历史数据，对 1,097 个高速公路汇合点的车辆到达过程进行了建模。结合排队理论模型，这些结果表征了动态监管要求，从而表征了远程操作方法的可扩展性。在所有场景中，我们发现与分析时间段内的车载监控员相比，操作员要求减少了 99% 以上。这项工作还展示了减少这些经验监督要求的两种方法：（i）使用协作连接的自动驾驶汽车——在所研究的场景中，这可以使系统可靠性平均提高 3.67 个数量级——以及（ii）更大区域的聚合。

人类与人工智能协作中的相互心理理论：实时共享工作空间任务中大语言模型驱动的人工智能代理的实证研究

分类： 人机交互, 人工智能, 多代理系统

作者： Shao Zhang, Xihuai Wang, Wenhao Zhang, Yongshan Chen, Landi Gao, Dakuo Wang, Weinan Zhang, Xinbing Wang, Ying Wen

发布时间： 2024-09-13

链接： http://arxiv.org/abs/2409.08811v1

摘要： 心智理论 (ToM) 极大地影响着人类的协作和沟通，作为理解他人的重要能力。当具有 ToM 能力的 AI 智能体与人类协作时，人类与 AI 团队 (HAT) 中就会出现相互思维理论 (MToM)。 MToM流程涉及交互沟通和基于ToM的策略调整，影响团队的绩效和协作流程。为了探索 MToM 过程，我们在实时共享工作空间任务中使用大型语言模型驱动的 AI 代理以及 ToM 和通信模块进行了混合设计实验。我们发现智能体的 ToM 能力不会显着影响团队绩效，但会增强人们对智能体的理解以及被理解的感觉。我们研究中的大多数参与者认为言语沟通会增加人类负担，结果表明双向沟通会导致 HAT 绩效降低。我们讨论了这些结果对于设计与人类在实时共享工作空间任务中协作的人工智能代理的影响。

时变拓扑动态网络的同步拓扑估计和同步

分类： 多代理系统

作者： Nana Wang, Esteban Restrepo, Dimos V. Dimarogonas

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08404v1

摘要： 我们提出了一种自适应控制策略，用于在具有未知、时变拓扑的复杂动态网络中同时估计拓扑和同步。我们的方法利用边一致框架将时变拓扑估计问题转化为估计完整图的时变权重问题。我们引入两个辅助网络：一个满足持续激励条件以促进拓扑估计，而另一个是均匀$\delta$持续激励网络，确保权重估计和同步误差的有界性（假设时变权重有界）及其衍生物。相关的数值示例显示了我们方法的效率。

不信任环境中代理的自监督推理

分类： 多代理系统, 人工智能, 计算和语言, 密码学和安全, 分布式、并行和集群计算

作者： Vladyslav Larin, Ivan Nikitin, Alexander Firsov

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08386v1

摘要： 在本文中，我们提出了一种新颖的方法，代理可以形成群体以有效地产生高质量的响应。这是通过利用能够进行数据推理和排名的代理来实现的，可以使用 LLM 作为响应分类器来有效地实现这一点。我们评估现有的无信任代理推理方法，定义我们的方法，估计实际参数，并对各种类型的恶意代理攻击进行建模。我们的方法利用群体的集体智慧，确保稳健、高效的去中心化人工智能推理，并具有更高的准确性、安全性和可靠性。我们表明，我们的方法比其他无需信任的推理策略快一个数量级，验证延迟达到小于 125 毫秒。

惯性协调游戏

分类： 理论经济学, 多代理系统

作者： Andrew Koh, Ricky Li, Kei Uzui

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.08145v1

摘要： 我们分析惯性协调博弈：具有内生变化状态的动态协调博弈，其状态取决于（i）玩家私下了解的持久基础； (ii) 过去的比赛。我们对学习速度如何塑造平衡动态给出了严格的描述：当且仅当学习速度缓慢使得后验精度呈次二次方增长时，才会在极限内选择风险主导行动。这概括了静态全局游戏的结果，并赋予它们替代的学习基础。相反，当学习速度很快时，平衡动态表现出持久性，并且极限游戏是由初始游戏形成的。每当选择风险主导均衡时，当信号精确时，游戏路径会经历突然转变，而当信号嘈杂时，游戏路径会经历逐渐转变。

强化学习发现高效的去中心化图路径搜索策略

分类： 机器学习, 人工智能, 多代理系统, 社交和信息网络

作者： Alexei Pisacane, Victor-Alexandru Darvariu, Mirco Musolesi

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07932v1

摘要： 图路径搜索是一个经典的计算机科学问题，最近通过强化学习（RL）来解决，因为它有超越现有方法的潜力。现有的强化学习技术通常假设网络的全局视图，这不适合大规模、动态和隐私敏感的设置。社交网络中的搜索因其众多的应用而受到特别关注。受到实验社会学开创性工作的启发，该工作表明在社交网络中分散而有效的搜索是可能的，我们将问题描述为配备有限网络局部视图的多个代理之间的协作任务。我们提出了一种用于图路径搜索的多代理方法，该方法成功地利用了同质性和结构异质性。我们在合成和现实世界的社交网络上进行的实验表明，我们的模型显着优于学习和启发式基线。此外，我们的结果表明，可以使用奖励驱动学习来构建有意义的图形导航嵌入。

CollaMamba：跨智能体时空状态空间模型的高效协作感知

分类： 计算机视觉和模式识别, 多代理系统

作者： Yang Li, Quan Yuan, Guiyang Luo, Xiaoyuan Fu, Xuanhan Zhu, Yujia Yang, Rui Pan, Jinglin Li

发布时间： 2024-09-12

链接： http://arxiv.org/abs/2409.07714v1

摘要： 通过共享互补的感知信息，多智能体协作感知可以促进对环境的更深入的理解。最近关于协作感知的研究大多利用 CNN 或 Transformer 来学习空间维度的特征表示和融合，这在计算和通信资源有限的情况下难以处理远程时空特征。对广泛的空间区域和扩展的时间框架上的依赖性进行整体建模对于提高特征质量至关重要。为此，我们提出了一种资源高效的跨智能体时空协作状态空间模型（SSM），名为 CollaMamba。首先，我们构建了一个基于空间SSM的基础骨干网络。该主干网络巧妙地从单智能体和跨智能体视图中捕获位置因果依赖性，产生紧凑且全面的中间特征，同时保持线性复杂性。此外，我们设计了一个基于时间 SSM 的历史感知特征增强模块，从扩展的历史帧中提取上下文线索以细化模糊特征，同时保持较低的开销。跨多个数据集的大量实验表明，CollaMamba 的性能优于最先进的方法，实现了更高的模型精度，同时将计算和通信开销分别减少了高达 71.9% 和 1/64。这项工作开创了曼巴在协作感知方面潜力的探索。源代码将公开。

利用非结构化文本数据进行大型语言模型的联合指令调优

分类： 计算和语言, 人工智能, 多代理系统

作者： Rui Ye, Rui Ge, Yuchi Fengting, Jingyi Chai, Yanfeng Wang, Siheng Chen

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07136v1

摘要： 联合指令调优使多个客户端能够协作微调共享大语言模型 (LLM)，该模型可以遵循人类指令，而无需直接共享原始数据。然而，现有文献不切实际地要求所有客户端随时保存指令调整数据（即结构化指令-响应对），这需要大量的人工注释，因为客户端的数据通常是非结构化文本。针对这个问题，我们提出了一种新颖且灵活的框架 FedIT-U2S，它可以自动将非结构化语料库转换为结构化数据以进行联邦指令调优。 FedIT-U2S 包含两个关键步骤：(1) 几次指令调整数据生成，其中将每个非结构化数据片段与多个示例组合在一起，以提示 LLM 生成指令-响应对。为了进一步增强灵活性，提出了一种基于检索的示例选择技术，根据客户端数据和示例池之间的相关性自动选择示例，从而绕过了预先确定示例的需要。 (2)基于生成数据的典型联邦指令调优过程。总体而言，只要客户端拥有有价值的文本语料，FedIT-U2S就可以应用于多种场景，拓宽了联邦指令调优的应用范围。我们在三个领域（医学、知识和数学）进行了一系列实验，表明我们提出的 FedIT-U2S 能够持续且显着地带来基础 LLM 的改进。

DCMAC：通过上限训练实现需求感知的定制多代理通信

分类： 人工智能, 多代理系统

作者： Dongkun Huo, Huateng Zhang, Yixue Hao, Yuanlin Ye, Long Hu, Rui Wang, Min Chen

发布时间： 2024-09-11

链接： http://arxiv.org/abs/2409.07127v1

摘要： 高效的通信可以提高协作多智能体强化学习的整体性能。一种常见的方法是通过充分的沟通来共享观察结果，这会导致大量的沟通开销。现有的工作试图通过基于局部信息的队友模型来感知全局状态。然而，他们忽略了预测产生的不确定性可能会导致训练困难。为了解决这个问题，我们提出了一种需求感知定制多代理通信（DCMAC）协议，该协议使用上限训练来获得理想的策略。通过利用需求解析模块，代理可以解释向队友发送本地消息的增益，并通过使用交叉注意机制计算需求和本地观察之间的相关性来生成定制消息。此外，我们的方法可以通过采用联合观察训练的理想策略来适应代理的通信资源并加速训练进度。实验结果表明，DCMAC 在无约束和通信受限场景中均显着优于基线算法。

Foragax：基于 JAX 的代理建模框架

分类： 多代理系统

作者： Siddharth Chaturvedi, Ahmed El-Gazzar, Marcel van Gerven

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06345v3

摘要： 寻找资源是生物体在共享环境中为维持体内平衡而进行的普遍活动。对多智能体觅食进行计算机建模使我们能够以易于处理的方式研究个体和集体的紧急行为。事实证明，基于代理的建模在模拟此类任务方面是有效的，尽管扩展模拟以适应大量具有复杂动态的代理仍然具有挑战性。在这项工作中，我们提出了 Foragax，一个通用的、可扩展的、硬件加速的、多代理觅食工具包。利用 JAX 库，我们的工具包可以以端到端矢量化和可微分的方式模拟在公共环境中搜寻的数千个代理。该工具包提供基于代理的建模工具来对各种觅食任务进行建模，包括设计自定义空间和时间代理动态、控制策略、传感器模型和边界条件的选项。此外，可以根据自定义规则增加或减少此类模拟期间的代理数量。在应用于觅食时，该工具包还可以用于建模和模拟各种其他多代理场景。

自动生成多智能体寻路基准图的质量多样性方法

分类： 多代理系统

作者： Cheng Qian, Yulun Zhang, Varun Bhatt, Matthew Christopher Fontaine, Stefanos Nikolaidis, Jiaoyang Li

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06888v1

摘要： 我们使用质量多样性 (QD) 算法和神经元胞自动机 (NCA) 来生成多智能体路径查找 (MAPF) 算法的基准图。此前，MAPF 算法是使用固定的、人工设计的基准地图进行测试的。然而，这种固定基准图有几个问题。首先，这些图可能无法涵盖算法的所有潜在故障场景。其次，在比较不同的算法时，固定的基准图可能会引入偏差，导致算法之间的比较不公平。在这项工作中，我们利用具有不同目标和多样性度量的QD算法和NCA来生成具有模式的地图，以全面了解MAPF算法的性能，并能够在两种MAPF算法之间进行公平比较，为选择提供进一步的信息两种算法之间。根据经验，我们采用这种技术生成不同的基准图来评估和比较不同类型的 MAPF 算法的行为，例如有界次优算法、次优算法和基于强化学习的算法。通过单规划器实验和算法之间的比较，我们确定了每种算法的优势模式，并检测不同算法之间运行时间或成功率的差异。

代理人可以自发形成社团吗？引入一种新颖的生成多智能体架构来引发社会涌现

分类： 多代理系统, 人工智能, 人机交互, 机器学习, 68T42, I.2.7; J.4

作者： H. Zhang, J. Yin, M. Jiang, C. Su

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06750v1

摘要： 生成代理在特定任务中表现出了令人印象深刻的能力，但这些框架大多数都专注于独立任务，缺乏对社交互动的关注。我们引入了一种称为 ITCMA-S 的生成代理架构，它包括一个用于单个代理的基本框架和一个称为 LTRHA 的框架，该框架支持多代理之间的社交交互。这种架构使代理能够识别和过滤掉不利于社交互动的行为，引导他们选择更有利的行为。我们设计了一个沙箱环境来模拟多个无身份代理之间社会关系的自然演化，以进行实验评估。结果表明，ITCMA-S在多项评估指标上表现良好，展示了其通过持续行动和对话主动探索环境、识别新智能体以及获取新信息的能力。观察表明，当代理人相互建立联系时，他们会自发地围绕选定的领导者形成具有内部等级制度的派系，并组织集体活动。

Foragax：基于 JAX 的基于代理的建模框架

分类： 多代理系统

作者： Siddharth Chaturvedi, Ahmed El-Gazzar, Marcel van Gerven

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06345v2

摘要： 寻找资源是生物体在共享环境中为维持体内平衡而进行的普遍活动。对多智能体觅食进行计算机建模使我们能够以易于处理的方式研究个体和集体的紧急行为。事实证明，基于代理的建模在模拟此类任务方面是有效的，尽管扩展模拟以适应大量具有复杂动态的代理仍然具有挑战性。在这项工作中，我们提出了 Foragax，一个通用的、可扩展的、硬件加速的、多代理觅食工具包。利用 JAX 库，我们的工具包可以以端到端矢量化和可微分的方式模拟在公共环境中搜寻的数千个代理。该工具包提供基于代理的建模工具来对各种觅食任务进行建模，包括设计自定义空间和时间代理动态、控制策略、传感器模型和边界条件的选项。此外，可以根据自定义规则增加或减少此类模拟期间的代理数量。该工具包还可以用于潜在地对更一般的多代理场景进行建模。

负责任的区块链：STEADI 原则和基于参与者网络理论的开发方法（ANT-RDM）

分类： 多代理系统, 密码学和安全, 分布式、并行和集群计算, 93A16, K.6

作者： Yibai Li, Ahmed Gomaa, Xiaobing Li

发布时间： 2024-09-10

链接： http://arxiv.org/abs/2409.06179v1

摘要： 本文对与区块链技术相关的挑战和争议进行了全面分析。它确定了可扩展性、安全性、隐私和互操作性等技术挑战，以及当前区块链系统中存在的业务和采用挑战以及社会、经济、道德和环境争议。我们认为，负责任的区块链开发是克服这些挑战和实现大规模采用的关键。本文定义了负责任的区块链，并介绍了负责任的区块链开发的 STEADI 原则（可持续、透明、道德、适应性、去中心化和包容性）。此外，它还提出了基于参与者网络理论的区块链负责任开发方法（ANT-RDM），其中包括问题化、兴趣化、注册和动员的步骤。

使用人工智能助手对抗动态自稳定任务中的空间定向障碍

分类： 人机交互, 人工智能, 机器学习, 多代理系统, 机器人技术

作者： Sheikh Mannan, Paige Hansen, Vivekanand Pandey Vimal, Hannah N. Davies, Paul DiZio, Nikhil Krishnaswamy

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.14565v1

摘要： 空间定向障碍是致命飞机事故的主要原因。本文探讨了人工智能代理通过提供改善空间迷失方向的线索和纠正措施来帮助飞行员保持平衡和防止不可恢复的失控的潜力。多轴旋转系统（MARS）用于收集在航天模拟条件下自平衡的人类受试者的数据。我们根据这些数据训练模型，以创建“数字双胞胎”，举例说明具有不同熟练程度的人类的表现特征。然后，我们训练了各种强化学习和深度学习模型，以便在预测失去控制时提供纠正线索。然后，数字孪生和辅助模型共同执行使用相同物理原理编程的虚拟倒立摆 (VIP)。从这些模拟中，我们根据碰撞频率和距平衡方向的平均距离等任务指标选出了 5 个表现最好的助手。这些被用于一项共同执行研究中，20 名新人类受试者执行了空间信息退化的 VIP 任务版本。我们表明，某些人工智能助手能够提高人类的表现，并且基于强化学习的助手客观上更有效，但被认为不太受人类信任和青睐。

基于 Voronoi 的多机器人编队通过协作梯度估计进行 3D 寻源

分类： 机器人技术, 多代理系统

作者： Lara Briñón-Arranz, Martin Abou Hamad, Alessandro Renzaglia

发布时间： 2024-09-09

链接： http://arxiv.org/abs/2409.05995v1

摘要： 在本文中，我们通过一组移动机器人解决了定位三维信号场源的问题，该团队能够收集其强度的噪声测量结果并相互共享信息。所采用的策略是协同计算信号场梯度的闭合形式估计，然后用于引导多机器人系统朝源位置移动。为了保证准确和鲁棒的梯度估计，机器人被放置在固定半径的球体的表面上。更具体地说，它们的位置对应于球面上受约束质心沃罗诺伊分区的生成元。我们表明，通过保持这些特定的形态，可以同时实现关键的几何特性和高水平的场覆盖，并且它们允许通过简单的解析表达式来估计梯度。最后，我们提供模拟结果来评估所提出方法的性能，同时考虑无噪声和噪声测量。特别是，比较分析显示了其针对错误测量的更高鲁棒性如何优于替代的最先进的解决方案。

使用硬样本挖掘提高非结构化环境中多车辆导航的性能

分类： 多代理系统

作者： Yining Ma, Ang Li, Qadeer Khan, Daniel Cremers

发布时间： 2024-09-08

链接： http://arxiv.org/abs/2409.05119v1

摘要： 当代自动驾驶研究已经证明了在模拟人类驾驶特征方面的巨大潜力。然而，它们主要服务于拥有完善的道路基础设施和适当的交通管理系统的地区。因此，在没有交通信号或非结构化环境中，这些自动驾驶算法预计会失败。本文提出了一种在非结构化环境中在没有交通规则的情况下自动导航多辆车辆接近其所需目的地的策略。图形神经网络（GNN）已在多车辆控制任务中表现出良好的实用性。在训练 GNN 的不同替代方案中，监督方法已被证明是最有效的数据效率，尽管需要真实标签。然而，这些标签可能并不总是可用，特别是在没有交通管制的非结构化环境中。因此，可能需要繁琐的优化过程来确定它们，同时确保车辆到达其期望的目的地并且不会彼此碰撞或与任何障碍物碰撞。因此，为了加快训练过程，必须减少优化时间并仅选择那些对训练最有价值的样本进行标记。在本文中，我们提出了一种热启动方法，该方法首先使用在更简单的数据子集上训练的预训练模型。然后对更复杂的场景进行推理，以确定模型面临最大困境的硬样本。这是通过车辆在不发生碰撞的情况下到达预期目的地时遇到的困难来衡量的。实验结果表明，以这种方式挖掘硬样本对监督训练数据的需求减少了 10 倍。视频和代码可以在这里找到：\url{https://yininghase.github.io/multiagent-collision-mining/}。

面向交通信号控制的基于多代理策略的定向超图学习

分类： 多代理系统

作者： Kang Wang, Zhishu Shen, Zhenwei Wang, Tiehua Zhang

发布时间： 2024-09-08

链接： http://arxiv.org/abs/2409.05037v1

摘要： 结合图神经网络（GNN）的深度强化学习（DRL）方法已被广泛研究用于智能交通信号控制，其目的是有效协调多个交叉口的交通信号。尽管取得了这些进展，这些方法中使用的标准图学习仍然难以捕获现实世界交通流中的高阶相关性。在本文中，我们提出了一种多智能体近端策略优化框架DHG-PPO，该框架结合了PPO和有向超图模块来提取道路网络的时空属性。 DHG-PPO 使多个智能体能够通过超图的动态构建进行巧妙的交互。 DHG-PPO 的有效性通过大量实验在平均行程时间和吞吐量方面与最先进的基线进行了验证。

在安全保证的情况下限制优先轨迹规划中的计算水平

分类： 机器人技术, 多代理系统, 系统与控制, 系统与控制

作者： Jianye Xu, Patrick Scheffe, Bassam Alrifaee

发布时间： 2024-09-08

链接： http://arxiv.org/abs/2409.05029v1

摘要： 在车辆优先规划中，车辆并行或顺序规划轨迹。无论车辆数量如何，并行优先规划都能提供大致一致的计算时间，但很难保证无碰撞轨迹。相反，顺序优先规划可以保证无碰撞，但随着顺序计算车辆数量（我们称之为计算级别）的增长，会导致计算时间增加。这个数字是由车辆耦合和优先级排序产生的有向耦合图确定的。在这项工作中，我们通过可达性分析保证并行规划中的安全轨迹。尽管这些轨迹是无碰撞的，但它们往往是保守的。我们通过按顺序规划一部分车辆来解决这个问题。我们将选择这个子集的问题表述为图划分问题，使我们能够独立设置计算级别。我们的模拟表明，与顺序优先级规划相比，计算量减少了约 64%，同时保持了解决方案的质量。

错误信息游戏中的适应程序

分类： 计算机科学与博弈论, 多代理系统

作者： Konstantinos Varsos, Merkouris Papamichail, Giorgos Flouris, Marina Bitsaki

发布时间： 2024-09-07

链接： http://arxiv.org/abs/2409.04854v1

摘要： 我们研究多智能体系统中智能体之间的交互，其中智能体对他们所玩的游戏有错误的了解，本质上对环境有主观和不正确的理解，而没有意识到这一点。为此，我们引入了一个新的博弈论概念，称为错误信息博弈，它提供了研究这种情况所需的工具包。随后，我们通过开发一个时间离散过程（称为适应过程）来增强该框架，该过程捕获上述上下文中的迭代交互。在适应过程中，代理会更新其信息并重新评估其在每个步骤中的行为。我们通过一个实施来展示我们的想法，该实施用于研究适应程序的效率和特征。

广义马尔可夫博弈中的分散学习

分类： 多代理系统, 人工智能, 计算机科学与博弈论, 系统与控制, 系统与控制, 优化与控制

作者： Chinmay Maheshwari, Manxi Wu, Shankar Sastry

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04613v1

摘要： 马尔可夫博弈框架广泛用于对动态和不确定的社会规模系统中具有异构效用的代理之间的交互进行建模。在这些系统中，出于隐私和可扩展性的考虑，代理通常以分散的方式运行，通常在没有任何其他代理信息的情况下进行操作。可证明收敛于理性结果的去中心化学习算法的设计和分析仍然难以捉摸，特别是在马尔可夫零和博弈和马尔可夫势博弈之外，它们不能充分捕捉许多既不是完全竞争也不是完全合作的现实世界交互的本质。本文研究了一般和马尔可夫博弈的去中心化学习算法的设计，旨在为长期近似纳什均衡的收敛性提供可证明的保证。我们的方法建立在构建马尔可夫近势函数（MNPF）的基础上，以解决设计收敛到精确纳什均衡的算法的棘手问题。我们证明，MNPF 在确保基于 actor-critic 的去中心化学习算法收敛到近似纳什均衡方面发挥着核心作用。通过利用两个时间尺度的方法，其中 Q 函数估计的更新速度快于策略更新，我们表明系统在近似纳什均衡集上收敛到 MNPF 的水平集。如果假设纳什均衡集是有限的，则该收敛结果将进一步得到加强。我们的研究结果为多智能体系统中去中心化学习算法的分析和设计提供了新的视角。

SPACE：基于 Python 的模拟器，用于评估分散式多机器人任务分配算法

分类： 机器人技术, 人工智能, 多代理系统

作者： Inmo Jang

发布时间： 2024-09-06

链接： http://arxiv.org/abs/2409.04230v1

摘要： 群体机器人技术探索多个机器人的协调以实现集体目标，其中集体决策是核心焦点。这个过程涉及分散的机器人自主地做出本地决策并进行沟通，这会影响整体的紧急行为。在现实场景中使用数百个或更多机器人测试这种去中心化算法通常是不切实际的，这凸显了对有效模拟工具的需求。我们提出了 SPACE（群体规划和控制评估），这是一种基于 Python 的模拟器，旨在支持分散式多机器人任务分配（MRTA）算法的研究、评估和比较。 SPACE 允许用户将决策算法作为 Python 插件实现，通过直观的 GUI 轻松构建代理行为树，并利用对代理间通信和本地任务感知的内置支持，从而简化了核心算法开发。为了展示其实用性，我们在模拟器中实现和评估 CBBA 和 GRAPE，比较它们在不同指标上的性能，特别是在动态引入任务的场景中。该评估显示了 SPACE 在对 MRTA 算法进行严格和标准化比较方面的有用性，有助于支持该领域的未来研究。

混合自治流量协调的多代理路径查找

分类： 机器人技术, 人工智能, 多代理系统

作者： Han Zheng, Zhongxia Yan, Cathy Wu

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03881v1

摘要： 在不断发展的城市交通格局中，联网自动驾驶车辆 (CAV) 与人力驾驶车辆 (HDV) 的预期整合为自动驾驶系统带来了一系列复杂的挑战和机遇。虽然机器人技术的最新进展已经产生了针对代理协调任务量身定制的多代理路径查找 (MAPF) 算法，其特点是简化的运动学和对代理行为的完全控制，但这些解决方案不适用于无法控制的 HDV 必须与 CAV 共存并交互的混合流量环境。为了解决这一差距，我们提出了基于行为预测运动学优先级的搜索（BK-PBS），它利用离线训练的条件预测模型来预测 HDV 对 CAV 操作的响应，将这些见解集成到基于优先级的搜索（PBS）中，其中 A * 搜索在运动基元上进行以适应运动学约束。我们将 BK-PBS 与基于规则的汽车跟随模型和强化学习导出的 CAV 规划算法进行比较。通过对 CAV 渗透率和交通密度的不同场景下的高速公路合流场景进行全面模拟，BK-PBS 在降低碰撞率和提高系统级行驶延迟方面优于这些基线。我们的工作直接适用于多人多机器人协调的许多场景。

PARCO：学习并行自回归策略以实现高效的多智能体组合优化

分类： 多代理系统, 人工智能

作者： Federico Berto, Chuanbo Hua, Laurin Luttmann, Jiwoo Son, Junyoung Park, Kyuree Ahn, Changhyun Kwon, Lin Xie, Jinkyoo Park

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03811v1

摘要： 路由和调度等多智能体组合优化问题具有很大的实际意义，但由于其 NP 难组合性质、对可能智能体数量的硬约束以及难以优化的目标函数，也带来了挑战。本文介绍了 PARCO（并行自回归组合优化），这是一种通过采用并行自回归解码通过强化学习来学习多智能体组合问题的快速代理求解器的新方法。我们提出了一种具有多指针机制的模型，可以有效地解码不同代理同时做出的多个决策，并通过基于优先级的冲突处理方案进行增强。此外，我们设计了专门的通信层，可以实现有效的代理协作，从而丰富决策。我们在路由和调度中的代表性多智能体组合问题中评估了 PARCO，并证明我们学习的求解器在解决方案质量和速度方面提供了与经典和神经基线相比具有竞争力的结果。我们在 https://github.com/ai4co/parco 公开提供我们的代码。

具有尖峰和平板先验的非平稳稀疏相关多输出高斯过程

分类： 机器学习, 机器学习, 多代理系统, 系统与控制, 系统与控制

作者： Wang Xinming, Li Yongxiang, Yue Xiaowei, Wu Jianguo

发布时间： 2024-09-05

链接： http://arxiv.org/abs/2409.03149v1

摘要： 多输出高斯过程（MGP）通常用作一种转移学习方法来利用多个输出之间的信息。 MGP 的一个关键优势是为预测提供不确定性量化，这对于后续决策任务非常重要。然而，传统的 MGP 可能不够灵活，无法处理具有动态特性的多元数据，特别是在处理复杂的时间相关性时。此外，由于某些输出可能缺乏相关性，因此在它们之间传递信息可能会导致负传递。为了解决这些问题，本研究提出了一种非平稳 MGP 模型，可以捕获输出之间的动态和稀疏相关性。具体来说，MGP 的协方差函数是使用时变核函数的卷积构造的。然后，将动态尖峰和平板先验置于相关参数上，以自动决定哪些源对训练过程中的目标输出提供信息。提出了一种期望最大化（EM）算法来实现高效的模型拟合。数值研究和实际案例都证明了其在捕获动态和稀疏相关结构以及减轻高维时间序列数据负迁移方面的功效。最后，山地车强化学习案例强调了其在决策问题中的潜在应用。

协作多智能体强化学习中分散执行的集中训练简介

分类： 机器学习, 多代理系统

作者： Christopher Amato

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.03052v1

摘要： 近年来，多智能体强化学习（MARL）迅速流行。已经开发了许多方法，但它们可以分为三种主要类型：集中式培训和执行（CTE）、集中式培训分散式执行（CTDE）以及分散式培训和执行（DTE）。 CTDE 方法是最常见的，因为它们可以在训练期间使用集中式信息，但以分散的方式执行——仅使用执行期间该代理可用的信息。 CTDE 是唯一需要单独训练阶段的范例，其中可以使用任何可用信息（例如其他代理策略、底层状态）。因此，它们比 CTE 方法更具可扩展性，在执行过程中不需要通信，并且通常可以表现良好。 CTDE 最自然地适合合作案例，但也可以应用于竞争或混合环境，具体取决于假设观察到的信息。本文是合作MARL中CTDE的介绍。它旨在解释设置、基本概念和常用方法。它并不涵盖 CTDE MARL 中的所有工作，因为该子区域相当广泛。我已经包含了我认为对于理解该子领域的主要概念很重要的工作，并对那些我遗漏的工作表示歉意。

CONClave——使用经过验证的共识和信任评分为 CAV 提供安全、稳健的合作感知

分类： 机器人技术, 密码学和安全, 多代理系统

作者： Edward Andert, Francis Mendoza, Hans Walter Behrens, Aviral Shrivastava

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02863v1

摘要： 联网自动驾驶汽车在改善汽车安全和交通流量方面具有巨大潜力，特别是在车辆之间共享感知数据的协作应用中。然而，这种合作必须避免可能导致事故的恶意和无意错误。以前的工作通常解决特定场景下协同驾驶的单一安全性或可靠性问题，而不是解决一组错误。在本文中，我们提出了 CONClave，一种紧密耦合的身份验证、共识和信任评分机制，为自动驾驶车辆的协作感知提供全面的安全性和可靠性。 CONClave 受益于步骤的流水线性质，因此可以更快地检测到故障，并且计算量更少。总体而言，CONClave 在防止安全缺陷、检测相对较小的传感故障以及提高 CAV 协作感知的鲁棒性和准确性方面显示出巨大的前景，同时增加最小的开销。

新兴语言调查

分类： 多代理系统, 计算和语言

作者： Jannik Peters, Constantin Waubert de Puiseau, Hasan Tercan, Arya Gopikrishnan, Gustavo Adolpho Lucas De Carvalho, Christian Bitter, Tobias Meisen

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02645v1

摘要： 新兴语言领域代表了人工智能领域的一个新的研究领域，特别是在多智能体强化学习的背景下。尽管研究语言出现的概念并不新鲜，但早期的方法主要关注解释人类语言的形成，很少考虑其对人工智能的潜在效用。相比之下，基于强化学习的研究旨在开发智能体的沟通能力，使其与人类语言相当甚至优于人类语言。因此，它们超出了自然语言处理研究中常见的学习统计表示。这就引发了许多基本问题，从语言出现的先决条件到衡量其成功的标准。本文通过对 181 篇关于人工智能新兴语言的科学出版物进行全面回顾来解决这些问题。其目的是为对该领域感兴趣或精通的研究人员提供参考。因此，主要贡献是流行术语的定义和概述、现有评估方法和指标的分析以及已确定的研究差距的描述。

基于上下文感知代理的智能长途运输系统模型

分类： 多代理系统

作者： Muhammad Raees, Afzal Ahmed

发布时间： 2024-09-04

链接： http://arxiv.org/abs/2409.02434v1

摘要： 长途运输对各国经济增长发挥着至关重要的作用。然而，缺乏正在开发的用于监测和支持长途车辆（LRV）的系统。需要采用现代技术的可持续且环境感知的运输系统。我们为多主体环境中的长途车辆运输监控和支持系统建模。我们的模型通过基于代理的建模（ABM）结合了距离车辆运输机制。该模型构成了 ABM 的设计协议，称为概述、设计和详细信息 (ODD)。该模型表明，每一类代理都将信息作为服务提供。因此，需要通过传感器和软件组件之间的通信协议来进行服务联合。这种服务集成支持对路线上的车辆进行监控和跟踪。模型模拟为基于智能对象的服务集成提供了有用的结果。

AIvril：人工智能驱动的 RTL 生成，具有循环验证

分类： 人工智能, 硬件架构, 计算和语言, 机器学习, 多代理系统

作者： Mubashir ul Islam, Humza Sami, Pierre-Emmanuel Gaillardon, Valerio Tenace

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.11411v1

摘要： 大型语言模型 (LLM) 是能够执行复杂自然语言处理任务的计算模型。利用这些能力，大语言模型有可能改变整个硬件设计堆栈，预测表明前端和后端任务可以在不久的将来完全自动化。目前，大语言模型在简化寄存器传输级（RTL）生成、提高效率和加速创新方面显示出巨大的前景。然而，它们的概率性质使得它们容易出现不准确的情况，这在可靠性和精度至关重要的 RTL 设计中是一个重大缺陷。为了应对这些挑战，本文介绍了 AIvril，这是一种先进的框架，旨在提高 RTL 感知大语言模型的准确性和可靠性。 AIvril 采用多代理、与 LLM 无关的系统进行自动语法校正和功能验证，显着减少（在许多情况下甚至完全消除）错误代码生成的情况。在 VerilogEval-Human 数据集上进行的实验结果表明，与之前的工作相比，我们的框架将代码质量提高了近 2 倍，同时在满足验证目标方面实现了 88.46% 的成功率。这代表着自动化和优化硬件设计工作流程的关键一步，为人工智能驱动的 RTL 设计提供了更可靠的方法。

通过自动调整激励来管理多个代理

分类： 多代理系统, 人工智能, 计算机科学与博弈论

作者： Shunichi Akatsuka, Yaemi Teramoto, Aaron Courville

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.02960v1

摘要： 未来几年，人工智能代理将用于做出更复杂的决策，包括涉及许多不同人群的情况。一个巨大的挑战是，人工智能代理倾向于按照自己的利益行事，这与人类不同，人类经常考虑从长远来看什么对每个人来说都是最好的。在本文中，我们探索了一种让自利主体努力实现造福整个社会的目标的方法。我们提出了一种方法，通过为某些行为分配激励来添加管理代理来调解代理交互。我们用供应链管理问题测试了我们的方法，结果表明该框架 (1) 将原始奖励增加了 22.2%，(2) 将代理的奖励增加了 23.8%，(3) 将经理的奖励增加了 20.1% 。

从基础到规划：网络代理的基准瓶颈

分类： 人工智能, 多代理系统

作者： Segev Shlomov, Ben wiesel, Aviad Sela, Ido Levy, Liane Galanti, Roy Abitbol

发布时间： 2024-09-03

链接： http://arxiv.org/abs/2409.01927v1

摘要： 通用的基于网络的代理对于与复杂的网络环境交互越来越重要，但它们在现实世界的网络应用程序中的性能仍然很差，即使使用最先进的前沿模型，其准确性也极低。我们观察到这些代理可以分解为两个主要部分：规划和基础。然而，大多数现有研究将这些代理视为黑匣子，专注于阻碍有意义的改进的端到端评估。我们加深了规划和基础组件之间的区别，并通过在 Mind2Web 数据集上完善实验来进行新颖的分析。我们的工作分别为每个组件提出了一个新的基准，识别限制代理性能的瓶颈和痛点。与普遍的假设相反，我们的研究结果表明接地并不是一个重要的瓶颈，可以用当前的技术有效地解决。相反，主要的挑战在于规划组件，这是性能下降的主要根源。通过这一分析，我们提供了新的见解并展示了提高网络代理能力的实用建议，为更可靠的代理铺平了道路。

性能感知的自配置多代理网络：一种用于同时协调和网络设计的分布式子模块方法

分类： 系统与控制, 人工智能, 多代理系统, 机器人技术, 系统与控制, 优化与控制

作者： Zirui Xu, Vasileios Tzoumas

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.01411v1

摘要： 据我们所知，我们引入了第一种严格的方法，使多代理网络能够自我配置其通信拓扑，以在多代理规划期间平衡可扩展性和最优性之间的权衡。我们受到无处不在的协作自治的未来的激励，其中众多分布式代理将通过代理间通信进行协调，以执行复杂的任务，例如流量监控、事件检测和环境探索。但是，由于现有近乎最优协调算法的计算和通信要求导致决策时间不切实际，此类大规模网络中的信息爆炸目前限制了其部署。为了克服这一挑战，我们提出了 AlterNAting 协调和网络设计算法（Anaconda），这是一种可扩展的算法，也享有近乎最优的保证。根据代理的带宽限制，Anaconda 使代理能够优化其本地通信邻域，从而最大化网络的动作协调近似性能。与最先进的技术相比，Anaconda 是一种随时可自配置的算法，可以量化任何类型网络（从完全断开连接到完全集中式）的次优保证，并且对于稀疏网络，决策速度快一个数量级。为了开发该算法，我们量化了由于去中心化（即由于通信最小化分布式协调）导致的次优成本。我们还使用受多臂老虎机和受基数约束的子模最大化文献启发的工具。我们在区域监控的模拟场景中演示了 Anaconda，并将其与最先进的算法进行比较。

论算法共谋的机制

分类： 理论经济学, 计算机科学与博弈论, 多代理系统

作者： Zhang Xu, Wei Zhao

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.01147v1

摘要： 本文解决了算法共谋的两个问题。首先，我们证明在一般类型的对称博弈中，包括囚徒困境、伯特兰竞争以及第一和第二价格拍卖的任何（非线性）混合，只有（严格）纳什均衡（NE）是随机稳定的。因此，默契合谋是由于学习不足而未能学习NE而驱动的，而不是学习一些维持合谋结果的策略。其次，我们研究算法如何适应学习不足的真实模拟中的共谋。早期的广泛探索和折扣因素抬高了Q值，从而中断了顺序和替代价格的削弱并导致双边反弹。这个过程不断重复，使得价格曲线像埃奇沃斯循环一样。当探索率和Q值都下降时，算法可能会巧合地双边反弹到相对较高的共同价格水平，然后陷入困境。最后，我们将我们的推理适应文献中的模拟结果，包括乐观初始化、市场设计和算法设计。

使用自然语言的大语言模型代理人社会规范的演变

分类： 多代理系统

作者： Ilya Horiguchi, Takahide Yoshida, Takashi Ikegami

发布时间： 2024-09-02

链接： http://arxiv.org/abs/2409.00993v1

摘要： 大型语言模型 (LLM) 的最新进展激发了人们对利用这些模型进行博弈论模拟的兴趣激增，其中 LLM 充当参与社交互动的个体代理。本研究以阿克塞尔罗德元规范游戏的基础工作为基础，探讨了大语言模型代理人通过自然语言话语自发生成并遵守规范策略的潜力。我们的实验表明，通过对话，LLM代理可以形成复杂的社会规范，例如元规范——纯粹通过自然语言交互强制惩罚那些不惩罚作弊者的规范。结果证实了使用 LLM 代理来模拟社交互动以及通过自然语言理解复杂策略和规范的出现和演变的有效性。未来的工作可能会通过纳入更广泛的场景和主体特征来扩展这些发现，旨在揭示社会规范形成背后更微妙的机制。

加速基于混合代理的模型和模糊认知图：如何结合具有相同想法的代理？

分类： 人工智能, 多代理系统

作者： Philippe J. Giabbanelli, Jack T. Beerman

发布时间： 2024-09-01

链接： http://arxiv.org/abs/2409.00824v1

摘要： 虽然基于代理的模型可以根据个体差异和当地环境创建详细的人工社会，但它们可能需要大量计算。建模者可以通过模型的简约使用来抵消这些成本，例如通过使用较小的总体规模（这限制了对子总体的分析）、运行更少的假设场景，或者通过执行更少的模拟来接受更多的不确定性。或者，研究人员可以通过硬件解决方案（例如 GPU 并行性）或在精度和计算时间之间进行权衡的近似方法来加速模拟。在本文中，我们提出了一种近似方法，将“想法相似”的智能体结合起来，从而减少群体规模和计算时间。我们的创新依赖于将代理行为表示为规则网络（模糊认知图），并根据经验评估这些网络之间的不同距离度量。然后，我们通过社区检测形成思维相似的智能体群体，并将它们简化为代表性智能体。案例研究表明我们的简化仍然准确。

基于动态子目标的路径形成和任务分配：可扩展群体机器人的 NeuroFleets 方法

分类： 机器人技术, 多代理系统

作者： Robinroy Peter, Lavanya Ratnabala, Eugene Yugarajah Andrew Charles, Dzmitry Tsetserukou

发布时间： 2024-09-01

链接： http://arxiv.org/abs/2409.00766v1

摘要： 本文从进化群体机器人的角度解决了未知环境中探索和导航的挑战。重点是路径形成，这对于协作群体机器人有效导航至关重要。我们基于有限状态机设计了任务分配和路径形成过程，确保系统决策和高效状态转换。该方法是分散的，允许每个机器人根据本地信息独立做出决策，从而增强了可扩展性和鲁棒性。我们提出了一种新颖的基于子目标的路径形成方法，该方法通过利用视觉上连接的子目标来建立位置之间的路径。在Argos模拟器上进行的模拟实验表明，该方法在大多数试验中成功形成了路径。然而，路径形成过程中众多机器人之间的相互碰撞（交通）会对性能产生负面影响。为了解决这个问题，我们提出了一种任务分配策略，该策略使用本地通信协议和基于光信号的通信来管理机器人部署。该策略评估点之间的距离并确定路径形成任务所需的最佳机器人数量，从而减少不必要的探索和交通拥堵。通过将路径长度、时间和资源使用与 A* 算法进行比较来评估基于子目标的路径形成方法和任务分配策略的性能。仿真结果证明了我们方法的有效性，突出了其可扩展性、鲁棒性和容错性。

使用具有分层影响网络的基于代理的模型模拟金融市场中社交媒体驱动的泡沫形成

分类： 多代理系统, 人工智能, 交易和市场微观结构, I.2.11

作者： Gonzalo Bohorquez, John Cartlidge

发布时间： 2024-09-01

链接： http://arxiv.org/abs/2409.00742v1

摘要： 我们提出，树状层次结构代表了一种简单而有效的方法来模拟金融市场的新兴行为，尤其是社交媒体影响和投资者行为之间存在明显交叉的市场。为了探索这一假设，我们引入了一种基于代理的金融市场模型，其中交易代理嵌入到社区的分层网络中，而社区影响交易者的策略和意见。该模型的实证分析表明，其行为符合在真实金融市场中观察到的几个典型事实；该模型能够真实地模拟社交媒体驱动的现象（例如回音室和拉高抛售计划）对金融市场的影响。

从人类反馈中进行多智能体强化学习：数据覆盖和算法技术

分类： 机器学习, 人工智能, 计算机科学与博弈论, 多代理系统

作者： Natalia Zhang, Xinqi Wang, Qiwen Cui, Runlong Zhou, Sham M. Kakade, Simon S. Du

发布时间： 2024-09-01

链接： http://arxiv.org/abs/2409.00717v2

摘要： 我们发起了基于人类反馈的多智能体强化学习（MARLHF）的研究，探索理论基础和实证验证。我们将任务定义为从一般和博弈中仅偏好的离线数据集中识别纳什均衡，这是一个以稀疏反馈信号的挑战为特征的问题。我们的理论建立了有效 MARLHF 中纳什均衡的复杂性上限，证明单一策略覆盖是不够的，并强调了单边数据集覆盖的重要性。这些理论见解通过综合实验得到验证。为了提高实际性能，我们进一步引入了两种算法技术。（1）我们提出沿时间轴的均方误差（MSE）正则化，以实现更均匀的奖励分布并改善奖励学习结果。（2）我们利用模仿学习来逼近参考策略，确保训练的稳定性和有效性。我们的研究结果强调了 MARLHF 所需的多方面方法，为有效的基于偏好的多代理系统铺平了道路。

用于个性化多模态人工智能搜索引擎的可学习代理协作网络框架

分类： 信息检索, 多代理系统

作者： Yunxiao Shi, Min Xu, Haimin Zhang, Xing Zi, Qiang Wu

发布时间： 2024-09-01

链接： http://arxiv.org/abs/2409.00636v1

摘要： 大语言模型（LLM）和检索增强生成（RAG）技术彻底改变了传统的信息访问方式，使人工智能代理能够在动态对话期间代表用户搜索和总结信息。尽管具有潜力，当前的人工智能搜索引擎在几个关键领域仍表现出相当大的改进空间。这些领域包括对多模式信息的支持、个性化响应的提供、逻辑地回答复杂问题的能力以及促进更灵活的交互。本文提出了一种新颖的人工智能搜索引擎框架，称为代理协作网络（ACN）。 ACN 框架由多个协同工作的专业代理组成，每个代理都有不同的角色，例如客户经理、解决方案策略师、信息经理和内容创建者。该框架集成了图片内容理解、用户画像追踪、在线进化等机制，增强了AI搜索引擎的响应质量、个性化和交互性。 ACN的一大亮点是引入了反射前向优化方法（RFO），该方法支持智能体之间的在线协同调整。这一特性赋予ACN在线学习能力，保证系统具有很强的交互灵活性，能够及时适应用户反馈。这种学习方法还可以作为基于代理的系统的优化方法，潜在地影响代理应用的其他领域。